点数信息
www.dssz.net
注册会员
|
设为首页
|
加入收藏夹
您好,欢迎光临本网站!
[请登录]
!
[注册会员]
!
首页
移动开发
云计算
大数据
数据库
游戏开发
人工智能
网络技术
区块链
操作系统
模糊查询
热门搜索:
源码
Android
整站
插件
识别
p2p
游戏
算法
更多...
在线客服QQ:632832888
当前位置:
资源下载
搜索资源 - minhash
下载资源分类
移动开发
开发技术
课程资源
网络技术
操作系统
安全技术
数据库
行业
服务器应用
存储
信息化
考试认证
云计算
大数据
跨平台
音视频
游戏开发
人工智能
区块链
在结果中搜索
所属系统
Windows
Linux
FreeBSD
Unix
Dos
PalmOS
WinCE
SymbianOS
MacOS
Android
开发平台
Visual C
Visual.Net
Borland C
CBuilder
Dephi
gcc
VBA
LISP
IDL
VHDL
Matlab
MathCAD
Flash
Xcode
Android STU
LabVIEW
开发语言
C/C++
Pascal
ASM
Java
PHP
Basic/ASP
Perl
Python
VBScript
JavaScript
SQL
FoxBase
SHELL
E语言
OC/Swift
文件类型
源码
程序
CHM
PDF
PPT
WORD
Excel
Access
HTML
Text
资源分类
搜索资源列表
去重算法Similarity
实现了SimHash算法、MinHash算法、Shingling算法、汉明距离、Jaccard Index。供初学者参考
所属分类:
Java
发布日期:2013-07-12
文件大小:15360
提供者:
sssummering114
局部敏感哈希,standford 课件
这个是standford 关于局部敏感哈希的课件。主要就是介绍了什么是局部敏感hash,minhash 的主要思想,以及相应的算法,怎么生成signature matrix 的基本算法,以及相关的运用。
所属分类:
讲义
发布日期:2018-05-28
文件大小:424960
提供者:
grace_0642
怎么判断文章相似性
• 签名,例如md5经常用于判断文章相同,其效率比全文比对效率高 • 局部敏感哈希,例如minhash经常用于判断文章相似 • minhash的原理是,使用子集代表全集合,以子集的相似性模拟全集合的相似性 • 把文章转化为集合的常见方法是分词 • 分句,故意留错别字能够提高检测效率
所属分类:
Java
发布日期:2018-05-29
文件大小:18432
提供者:
hyy80688
文本相似-Shingling、Minhash算法实验报告广工(附源码java)
实验内容:采用Shinling及Minhash技术分析以下两段文本的Jaccard相似度: (1) The TOEFL test is an English language assessment that is often required for admission by English-speaking universities and programs around the world. In addition to being accepted at more than 10,000
所属分类:
Java
发布日期:2019-01-10
文件大小:230400
提供者:
baidu_39502694
MinHash.java
java实现的MinHash算法,用于大批量的文本检测重复度。
所属分类:
Java
发布日期:2019-06-20
文件大小:4096
提供者:
wanglianrui123
datasketch, MinHash,LSH,LSH林,加权 MinHash,HyperLogLog,HyperLogLog .zip
datasketch, MinHash,LSH,LSH林,加权 MinHash,HyperLogLog,HyperLogLog datasketch: 大数据看起来很小 datasketch提供了可以以快速地处理和搜索大量数据 super的概率数据结构,而且精度很少。这里软件包包含以下数据草图:数据草图用法MinHash估计Jaccard
所属分类:
其它
发布日期:2019-09-18
文件大小:2097152
提供者:
weixin_38744207
MHAP, MinHash对齐过程( MHAP,发音映射).zip
MHAP, MinHash对齐过程( MHAP,发音映射) MHAPMinHash对齐进程( MHAP发音映射): 用于检测重叠和实用程序的局部敏感哈希。 这是开发分支,请使用最新标签。插件生成你必须有最新的JDK 和 Apache Maven 。 要签出和生成运行:git clon
所属分类:
其它
发布日期:2019-09-18
文件大小:318464
提供者:
weixin_38744270
datasketch, MinHash,LSH,LSH林,加权 MinHash,HyperLogLog,HyperLogLog+ +.zip
datasketch, MinHash,LSH,LSH林,加权 MinHash,HyperLogLog,HyperLogLog+ + datasketch: 大数据看起来很小 datasketch提供了可以以快速地处理和搜索大量数据 super的概率数据结构,而且精度很少。这里软件包包含以下数据草图:数据草图用法MinHash估计Jaccard
所属分类:
其它
发布日期:2019-10-10
文件大小:2097152
提供者:
weixin_38743481
minhash实验.zip
实时大数据分析minhash算法 报告,源代码和数据集 采用Minhash技术两个文本数据集Amazon News和Google Report的Jaccard相似度,给出两个集合中每条记录在另一个集合中相似度最高的记录,作为匹配结果输出。
所属分类:
Hadoop
发布日期:2020-06-30
文件大小:632832
提供者:
qq_42262818
SBIR_TFIDF_KMeans:在小型企业创新研究(SBIR)数据的TFIDF功能上使用KMeans进行文档聚类-源码
Apache Spark中的数据科学 使用TF / IDF-> K均值聚类和LSH(MinHash) SBIR 语言:Scala和Python 要求: 火花2.x 作者:伊恩·布鲁克斯(Ian Brooks) 关注[LinkedIn-Ian Brooks PhD]( ) 源数据 其他信息:小型企业创新研究(SBIR)计划是一项极具竞争力的计划,旨在鼓励国内小型企业从事具有商业化潜力的联邦研究/研究与开发(R / R&D)。 通过基于奖励的竞争性计划,SBIR使小型企业能够发掘
所属分类:
其它
发布日期:2021-03-13
文件大小:2097152
提供者:
weixin_42134554
重复问题检测lsh:通过数据分析(包括局部敏感哈希(LSH))进行知识提取-源码
重复问题检测 通过数据分析(包括局部敏感哈希(LSH))进行知识提取。 该存储库包含一个Jupyter笔记本,该笔记本使用数据集的子集测试4种不同类型的知识提取。 测试的知识提取方法为: 使用余弦相似度的“一对VS全部” 使用Jaccard相似度的“一对多” 具有余弦相似度的SimHash和随机二元投影的LSH 具有Jashcard相似性的具有MinHash和随机置换函数的LSH
所属分类:
其它
发布日期:2021-03-02
文件大小:220160
提供者:
weixin_42098830
sourmash-minimal-feedstock:一个用于sourmash-minimal的conda-smithy库-源码
关于极小值 主页: : 软件包许可证:BSD-3-Clause 原料许可证: 摘要:计算和比较DNA数据集的MinHash签名。 开发: : 文档: : 这是一个最小的版本,避免了严重的依赖关系,并尽可能跨平台。 要获取完整版本,请检查bioconda中的sourmash软件包。 当前构建状态 特拉维斯 无人机 蔚蓝 变体 状态 linux_64_python3.7 .____ 73_pypy linux_64_python3.7 .____ cpython l
所属分类:
其它
发布日期:2021-02-17
文件大小:30720
提供者:
weixin_42181693
modimizer:使用新型缩减型kmer进行快速DNA读集匹配和组装的工具集-源码
修改器 使用简单的kmer采样方法进行快速,节省空间的DNA读集匹配和组装的工具集。 具有精确kmer匹配的种子序列比对是DNA序列匹配和数据集分析的许多生物信息学方法的关键组成部分。 存在用于快速枚举读取集的所有kmers的工具,但是将它们全部表示在内存中的开销很大。 快速访问的自然工具是哈希表,但这可能会占用更多空间。 最近,已经引入了minhash和最小化方法,这些方法仅通过使用kmer的子集来节省速度上的空间。 对于这些方法,基于它们的哈希值相对于集合中的其他值较低(minhash)还
所属分类:
其它
发布日期:2021-02-16
文件大小:68608
提供者:
weixin_42162216
实验室生物信息学:大学工作。 适用于长DNA序列的近似比对仪。 通过最小化器和MinHash从k-mers估计Jaccard相似度,然后将其用作序列身份代理-源码
将长读映射到大型参考数据库 这是FER( )上的生物信息学课程的一个项目。 描述实现算法的论文可以在 找到,其C ++实现。 随着作者对算法的改进,C ++实现似乎与本文的描述有所不同。 安装 该程序的依赖项全部捆绑在./pom.xml ,因此将自动下载。 您只需要在计算机上安装Maven。 从项目根目录运行mvn package应该足以将程序安装在./target下。 运行程序 该程序需要两个参数,即FASTA文件格式的引用和查询(提供的FASTA文件不应包含任何注释)。 您可以通过发出
所属分类:
其它
发布日期:2021-02-06
文件大小:1048576
提供者:
weixin_42153793
set-sketch-paper:SetSketch:填补MinHash和HyperLogLog之间的空白-源码
SetSketch:填补MinHash和HyperLogLog之间的空白 该存储库包含源代码,可重现论文“ SetSketch:填补MinHash和HyperLogLog之间的空白”( )中提出的所有结果和图形。 抽象 MinHash和HyperLogLog是草绘算法,对于大数据应用程序中的集合摘要而言已成为必不可少的算法。 HyperLogLog允许以很小的空间对不同元素进行计数,而MinHash适用于集合的快速比较,因为它可以估计Jaccard相似度和其他联合数量。 这项工作提出了一个名为S
所属分类:
其它
发布日期:2021-02-06
文件大小:13631488
提供者:
weixin_42131367
BoomFilters:用于处理连续无界流的概率数据结构-源码
动臂过滤器 动臂过滤器是用于 概率数据结构。 这包括稳定的Bloom过滤器,可伸缩的Bloom过滤器, Counting Bloom过滤器, Inverse Bloom过滤器, Cuckoo过滤器,传统Bloom过滤器的几种变体, HyperLogLog , Count-Min Sketch和MinHash 。 经典布隆过滤器通常需要先验数据集才能分配适当大小的位阵列。 这对于脱机处理非常有效,但是联机处理通常涉及无限制的数据流。 有了足够的数据,传统的Bloom过滤器会“填充”,之后它的假
所属分类:
其它
发布日期:2021-02-02
文件大小:57344
提供者:
weixin_42119989