您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 去重算法Similarity

  2. 实现了SimHash算法、MinHash算法、Shingling算法、汉明距离、Jaccard Index。供初学者参考
  3. 所属分类:Java

    • 发布日期:2013-07-12
    • 文件大小:15360
    • 提供者:sssummering114
  1. 局部敏感哈希,standford 课件

  2. 这个是standford 关于局部敏感哈希的课件。主要就是介绍了什么是局部敏感hash,minhash 的主要思想,以及相应的算法,怎么生成signature matrix 的基本算法,以及相关的运用。
  3. 所属分类:讲义

    • 发布日期:2018-05-28
    • 文件大小:424960
    • 提供者:grace_0642
  1. 怎么判断文章相似性

  2. • 签名,例如md5经常用于判断文章相同,其效率比全文比对效率高 • 局部敏感哈希,例如minhash经常用于判断文章相似 • minhash的原理是,使用子集代表全集合,以子集的相似性模拟全集合的相似性 • 把文章转化为集合的常见方法是分词 • 分句,故意留错别字能够提高检测效率
  3. 所属分类:Java

    • 发布日期:2018-05-29
    • 文件大小:18432
    • 提供者:hyy80688
  1. 文本相似-Shingling、Minhash算法实验报告广工(附源码java)

  2. 实验内容:采用Shinling及Minhash技术分析以下两段文本的Jaccard相似度: (1) The TOEFL test is an English language assessment that is often required for admission by English-speaking universities and programs around the world. In addition to being accepted at more than 10,000
  3. 所属分类:Java

    • 发布日期:2019-01-10
    • 文件大小:230400
    • 提供者:baidu_39502694
  1. MinHash.java

  2. java实现的MinHash算法,用于大批量的文本检测重复度。
  3. 所属分类:Java

    • 发布日期:2019-06-20
    • 文件大小:4096
    • 提供者:wanglianrui123
  1. datasketch, MinHash,LSH,LSH林,加权 MinHash,HyperLogLog,HyperLogLog .zip

  2. datasketch, MinHash,LSH,LSH林,加权 MinHash,HyperLogLog,HyperLogLog datasketch: 大数据看起来很小 datasketch提供了可以以快速地处理和搜索大量数据 super的概率数据结构,而且精度很少。这里软件包包含以下数据草图:数据草图用法MinHash估计Jaccard
  3. 所属分类:其它

    • 发布日期:2019-09-18
    • 文件大小:2097152
    • 提供者:weixin_38744207
  1. MHAP, MinHash对齐过程( MHAP,发音映射).zip

  2. MHAP, MinHash对齐过程( MHAP,发音映射) MHAPMinHash对齐进程( MHAP发音映射): 用于检测重叠和实用程序的局部敏感哈希。 这是开发分支,请使用最新标签。插件生成你必须有最新的JDK 和 Apache Maven 。 要签出和生成运行:git clon
  3. 所属分类:其它

    • 发布日期:2019-09-18
    • 文件大小:318464
    • 提供者:weixin_38744270
  1. datasketch, MinHash,LSH,LSH林,加权 MinHash,HyperLogLog,HyperLogLog+ +.zip

  2. datasketch, MinHash,LSH,LSH林,加权 MinHash,HyperLogLog,HyperLogLog+ + datasketch: 大数据看起来很小 datasketch提供了可以以快速地处理和搜索大量数据 super的概率数据结构,而且精度很少。这里软件包包含以下数据草图:数据草图用法MinHash估计Jaccard
  3. 所属分类:其它

    • 发布日期:2019-10-10
    • 文件大小:2097152
    • 提供者:weixin_38743481
  1. minhash实验.zip

  2. 实时大数据分析minhash算法 报告,源代码和数据集 采用Minhash技术两个文本数据集Amazon News和Google Report的Jaccard相似度,给出两个集合中每条记录在另一个集合中相似度最高的记录,作为匹配结果输出。
  3. 所属分类:Hadoop

    • 发布日期:2020-06-30
    • 文件大小:632832
    • 提供者:qq_42262818
  1. SBIR_TFIDF_KMeans:在小型企业创新研究(SBIR)数据的TFIDF功能上使用KMeans进行文档聚类-源码

  2. Apache Spark中的数据科学 使用TF / IDF-> K均值聚类和LSH(MinHash) SBIR 语言:Scala和Python 要求: 火花2.x 作者:伊恩·布鲁克斯(Ian Brooks) 关注[LinkedIn-Ian Brooks PhD]( ) 源数据 其他信息:小型企业创新研究(SBIR)计划是一项极具竞争力的计划,旨在鼓励国内小型企业从事具有商业化潜力的联邦研究/研究与开发(R / R&D)。 通过基于奖励的竞争性计划,SBIR使小型企业能够发掘
  3. 所属分类:其它

    • 发布日期:2021-03-13
    • 文件大小:2097152
    • 提供者:weixin_42134554
  1. 重复问题检测lsh:通过数据分析(包括局部敏感哈希(LSH))进行知识提取-源码

  2. 重复问题检测 通过数据分析(包括局部敏感哈希(LSH))进行知识提取。 该存储库包含一个Jupyter笔记本,该笔记本使用数据集的子集测试4种不同类型的知识提取。 测试的知识提取方法为: 使用余弦相似度的“一对VS全部” 使用Jaccard相似度的“一对多” 具有余弦相似度的SimHash和随机二元投影的LSH 具有Jashcard相似性的具有MinHash和随机置换函数的LSH
  3. 所属分类:其它

    • 发布日期:2021-03-02
    • 文件大小:220160
    • 提供者:weixin_42098830
  1. sourmash-minimal-feedstock:一个用于sourmash-minimal的conda-smithy库-源码

  2. 关于极小值 主页: : 软件包许可证:BSD-3-Clause 原料许可证: 摘要:计算和比较DNA数据集的MinHash签名。 开发: : 文档: : 这是一个最小的版本,避免了严重的依赖关系,并尽可能跨平台。 要获取完整版本,请检查bioconda中的sourmash软件包。 当前构建状态 特拉维斯 无人机 蔚蓝 变体 状态 linux_64_python3.7 .____ 73_pypy linux_64_python3.7 .____ cpython l
  3. 所属分类:其它

    • 发布日期:2021-02-17
    • 文件大小:30720
    • 提供者:weixin_42181693
  1. modimizer:使用新型缩减型kmer进行快速DNA读集匹配和组装的工具集-源码

  2. 修改器 使用简单的kmer采样方法进行快速,节省空间的DNA读集匹配和组装的工具集。 具有精确kmer匹配的种子序列比对是DNA序列匹配和数据集分析的许多生物信息学方法的关键组成部分。 存在用于快速枚举读取集的所有kmers的工具,但是将它们全部表示在内存中的开销很大。 快速访问的自然工具是哈希表,但这可能会占用更多空间。 最近,已经引入了minhash和最小化方法,这些方法仅通过使用kmer的子集来节省速度上的空间。 对于这些方法,基于它们的哈希值相对于集合中的其他值较低(minhash)还
  3. 所属分类:其它

    • 发布日期:2021-02-16
    • 文件大小:68608
    • 提供者:weixin_42162216
  1. 实验室生物信息学:大学工作。 适用于长DNA序列的近似比对仪。 通过最小化器和MinHash从k-mers估计Jaccard相似度,然后将其用作序列身份代理-源码

  2. 将长读映射到大型参考数据库 这是FER( )上的生物信息学课程的一个项目。 描述实现算法的论文可以在 找到,其C ++实现。 随着作者对算法的改进,C ++实现似乎与本文的描述有所不同。 安装 该程序的依赖项全部捆绑在./pom.xml ,因此将自动下载。 您只需要在计算机上安装Maven。 从项目根目录运行mvn package应该足以将程序安装在./target下。 运行程序 该程序需要两个参数,即FASTA文件格式的引用和查询(提供的FASTA文件不应包含任何注释)。 您可以通过发出
  3. 所属分类:其它

    • 发布日期:2021-02-06
    • 文件大小:1048576
    • 提供者:weixin_42153793
  1. set-sketch-paper:SetSketch:填补MinHash和HyperLogLog之间的空白-源码

  2. SetSketch:填补MinHash和HyperLogLog之间的空白 该存储库包含源代码,可重现论文“ SetSketch:填补MinHash和HyperLogLog之间的空白”( )中提出的所有结果和图形。 抽象 MinHash和HyperLogLog是草绘算法,对于大数据应用程序中的集合摘要而言已成为必不可少的算法。 HyperLogLog允许以很小的空间对不同元素进行计数,而MinHash适用于集合的快速比较,因为它可以估计Jaccard相似度和其他联合数量。 这项工作提出了一个名为S
  3. 所属分类:其它

    • 发布日期:2021-02-06
    • 文件大小:13631488
    • 提供者:weixin_42131367
  1. BoomFilters:用于处理连续无界流的概率数据结构-源码

  2. 动臂过滤器 动臂过滤器是用于 概率数据结构。 这包括稳定的Bloom过滤器,可伸缩的Bloom过滤器, Counting Bloom过滤器, Inverse Bloom过滤器, Cuckoo过滤器,传统Bloom过滤器的几种变体, HyperLogLog , Count-Min Sketch和MinHash 。 经典布隆过滤器通常需要先验数据集才能分配适当大小的位阵列。 这对于脱机处理非常有效,但是联机处理通常涉及无限制的数据流。 有了足够的数据,传统的Bloom过滤器会“填充”,之后它的假
  3. 所属分类:其它

    • 发布日期:2021-02-02
    • 文件大小:57344
    • 提供者:weixin_42119989