搜索资源 - minhash - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - minhash

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

去重算法Similarity
实现了SimHash算法、MinHash算法、Shingling算法、汉明距离、Jaccard Index。供初学者参考
所属分类：Java
- 发布日期：2013-07-12
- 文件大小：15360
- 提供者：sssummering114

局部敏感哈希，standford 课件
这个是standford 关于局部敏感哈希的课件。主要就是介绍了什么是局部敏感hash，minhash 的主要思想，以及相应的算法，怎么生成signature matrix 的基本算法，以及相关的运用。
所属分类：讲义
- 发布日期：2018-05-28
- 文件大小：424960
- 提供者：grace_0642

怎么判断文章相似性
• 签名，例如md5经常用于判断文章相同，其效率比全文比对效率高 • 局部敏感哈希，例如minhash经常用于判断文章相似 • minhash的原理是，使用子集代表全集合，以子集的相似性模拟全集合的相似性 • 把文章转化为集合的常见方法是分词 • 分句，故意留错别字能够提高检测效率
所属分类：Java
- 发布日期：2018-05-29
- 文件大小：18432
- 提供者：hyy80688

文本相似-Shingling、Minhash算法实验报告广工（附源码java）
实验内容：采用Shinling及Minhash技术分析以下两段文本的Jaccard相似度： (1) The TOEFL test is an English language assessment that is often required for admission by English-speaking universities and programs around the world. In addition to being accepted at more than 10,000
所属分类：Java
- 发布日期：2019-01-10
- 文件大小：230400
- 提供者：baidu_39502694

MinHash.java
java实现的MinHash算法，用于大批量的文本检测重复度。
所属分类：Java
- 发布日期：2019-06-20
- 文件大小：4096
- 提供者：wanglianrui123

datasketch, MinHash，LSH，LSH林，加权 MinHash，HyperLogLog，HyperLogLog .zip
datasketch, MinHash，LSH，LSH林，加权 MinHash，HyperLogLog，HyperLogLog datasketch: 大数据看起来很小 datasketch提供了可以以快速地处理和搜索大量数据 super的概率数据结构，而且精度很少。这里软件包包含以下数据草图：数据草图用法MinHash估计Jaccard
所属分类：其它
- 发布日期：2019-09-18
- 文件大小：2097152
- 提供者：weixin_38744207

MHAP, MinHash对齐过程( MHAP，发音映射).zip
MHAP, MinHash对齐过程( MHAP，发音映射) MHAPMinHash对齐进程( MHAP发音映射): 用于检测重叠和实用程序的局部敏感哈希。这是开发分支，请使用最新标签。插件生成你必须有最新的JDK 和 Apache Maven 。要签出和生成运行：git clon
所属分类：其它
- 发布日期：2019-09-18
- 文件大小：318464
- 提供者：weixin_38744270

datasketch, MinHash，LSH，LSH林，加权 MinHash，HyperLogLog，HyperLogLog+ +.zip
datasketch, MinHash，LSH，LSH林，加权 MinHash，HyperLogLog，HyperLogLog+ + datasketch: 大数据看起来很小 datasketch提供了可以以快速地处理和搜索大量数据 super的概率数据结构，而且精度很少。这里软件包包含以下数据草图：数据草图用法MinHash估计Jaccard
所属分类：其它
- 发布日期：2019-10-10
- 文件大小：2097152
- 提供者：weixin_38743481

minhash实验.zip
实时大数据分析minhash算法报告，源代码和数据集采用Minhash技术两个文本数据集Amazon News和Google Report的Jaccard相似度，给出两个集合中每条记录在另一个集合中相似度最高的记录，作为匹配结果输出。
所属分类：Hadoop
- 发布日期：2020-06-30
- 文件大小：632832
- 提供者：qq_42262818

SBIR_TFIDF_KMeans:在小型企业创新研究（SBIR）数据的TFIDF功能上使用KMeans进行文档聚类-源码
Apache Spark中的数据科学使用TF / IDF-> K均值聚类和LSH（MinHash） SBIR 语言：Scala和Python 要求：火花2.x 作者：伊恩·布鲁克斯（Ian Brooks）关注[LinkedIn-Ian Brooks PhD]（）源数据其他信息：小型企业创新研究（SBIR）计划是一项极具竞争力的计划，旨在鼓励国内小型企业从事具有商业化潜力的联邦研究/研究与开发（R / R＆D）。通过基于奖励的竞争性计划，SBIR使小型企业能够发掘
所属分类：其它
- 发布日期：2021-03-13
- 文件大小：2097152
- 提供者：weixin_42134554

重复问题检测lsh：通过数据分析（包括局部敏感哈希（LSH））进行知识提取-源码
重复问题检测通过数据分析（包括局部敏感哈希（LSH））进行知识提取。该存储库包含一个Jupyter笔记本，该笔记本使用数据集的子集测试4种不同类型的知识提取。测试的知识提取方法为：使用余弦相似度的“一对VS全部” 使用Jaccard相似度的“一对多” 具有余弦相似度的SimHash和随机二元投影的LSH 具有Jashcard相似性的具有MinHash和随机置换函数的LSH
所属分类：其它
- 发布日期：2021-03-02
- 文件大小：220160
- 提供者：weixin_42098830

sourmash-minimal-feedstock：一个用于sourmash-minimal的conda-smithy库-源码
关于极小值主页：：软件包许可证：BSD-3-Clause 原料许可证：摘要：计算和比较DNA数据集的MinHash签名。开发：：文档： : 这是一个最小的版本，避免了严重的依赖关系，并尽可能跨平台。要获取完整版本，请检查bioconda中的sourmash软件包。当前构建状态特拉维斯无人机蔚蓝变体状态 linux_64_python3.7 .____ 73_pypy linux_64_python3.7 .____ cpython l
所属分类：其它
- 发布日期：2021-02-17
- 文件大小：30720
- 提供者：weixin_42181693

modimizer：使用新型缩减型kmer进行快速DNA读集匹配和组装的工具集-源码
修改器使用简单的kmer采样方法进行快速，节省空间的DNA读集匹配和组装的工具集。具有精确kmer匹配的种子序列比对是DNA序列匹配和数据集分析的许多生物信息学方法的关键组成部分。存在用于快速枚举读取集的所有kmers的工具，但是将它们全部表示在内存中的开销很大。快速访问的自然工具是哈希表，但这可能会占用更多空间。最近，已经引入了minhash和最小化方法，这些方法仅通过使用kmer的子集来节省速度上的空间。对于这些方法，基于它们的哈希值相对于集合中的其他值较低（minhash）还
所属分类：其它
- 发布日期：2021-02-16
- 文件大小：68608
- 提供者：weixin_42162216

实验室生物信息学：大学工作。适用于长DNA序列的近似比对仪。通过最小化器和MinHash从k-mers估计Jaccard相似度，然后将其用作序列身份代理-源码
将长读映射到大型参考数据库这是FER（）上的生物信息学课程的一个项目。描述实现算法的论文可以在找到，其C ++实现。随着作者对算法的改进，C ++实现似乎与本文的描述有所不同。安装该程序的依赖项全部捆绑在./pom.xml ，因此将自动下载。您只需要在计算机上安装Maven。从项目根目录运行mvn package应该足以将程序安装在./target下。运行程序该程序需要两个参数，即FASTA文件格式的引用和查询（提供的FASTA文件不应包含任何注释）。您可以通过发出
所属分类：其它
- 发布日期：2021-02-06
- 文件大小：1048576
- 提供者：weixin_42153793

set-sketch-paper：SetSketch：填补MinHash和HyperLogLog之间的空白-源码
SetSketch：填补MinHash和HyperLogLog之间的空白该存储库包含源代码，可重现论文“ SetSketch：填补MinHash和HyperLogLog之间的空白”（）中提出的所有结果和图形。抽象 MinHash和HyperLogLog是草绘算法，对于大数据应用程序中的集合摘要而言已成为必不可少的算法。 HyperLogLog允许以很小的空间对不同元素进行计数，而MinHash适用于集合的快速比较，因为它可以估计Jaccard相似度和其他联合数量。这项工作提出了一个名为S
所属分类：其它
- 发布日期：2021-02-06
- 文件大小：13631488
- 提供者：weixin_42131367

BoomFilters：用于处理连续无界流的概率数据结构-源码
动臂过滤器动臂过滤器是用于概率数据结构。这包括稳定的Bloom过滤器，可伸缩的Bloom过滤器， Counting Bloom过滤器， Inverse Bloom过滤器， Cuckoo过滤器，传统Bloom过滤器的几种变体， HyperLogLog ， Count-Min Sketch和MinHash 。经典布隆过滤器通常需要先验数据集才能分配适当大小的位阵列。这对于脱机处理非常有效，但是联机处理通常涉及无限制的数据流。有了足够的数据，传统的Bloom过滤器会“填充”，之后它的假
所属分类：其它
- 发布日期：2021-02-02
- 文件大小：57344
- 提供者：weixin_42119989