您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. simhash算法库simhash.zip

  2. 专门针对中文文档的simhash算法库 简介 此项目用来对中文文档计算出对应的 simhash 值。 simhash 是谷歌用来进行文本去重的算法,现在广泛应用在文本处理中。 详见SimhashBlog 特性 使用 CppJieba 作为分词器和关键词抽取器 使用 jenkins 作为 hash 函数 hpp 风格,所有源码都是 .hpp 文件里面,方便使用。 没有链接,就没有伤害。 依赖 g (version >= 4.1 recommended), or clang
  3. 所属分类:其它

    • 发布日期:2019-07-16
    • 文件大小:4194304
    • 提供者:weixin_39840650
  1. simhash算法的java实现simhash-java.zip

  2. simhash 算法的 java 实现。特点计算字符串的 simhash通过构建智能索引来计算所有字符串之间的相似性,因此可以处理大数据使用使用输入文件和输出文件运行 Maininputfile 的格式(参见 src / test_in):一个文件每行用 utf8 字符集outputfile 格式 start //start flag first line // doc sencode lien // doc1\tdist the dist is the hamming distance be
  3. 所属分类:其它

    • 发布日期:2019-07-19
    • 文件大小:1048576
    • 提供者:weixin_39840588
  1. Algorithm-simhash.zip

  2. Algorithm-simhash.zip,simhash算法的go实现,算法是为计算机程序高效、彻底地完成任务而创建的一组详细的准则。
  3. 所属分类:其它

    • 发布日期:2019-09-17
    • 文件大小:61440
    • 提供者:weixin_38744153
  1. simhash, Simhash算法的python 实现.zip

  2. simhash, Simhash算法的python 实现 simhash这是 Simhash的python 实现。正在启动http://leons.im/posts/a-python-implementation-of-simhash-algorithm/插件生成状态
  3. 所属分类:其它

    • 发布日期:2019-09-18
    • 文件大小:6144
    • 提供者:weixin_38744270
  1. Java-similarity-master.zip

  2. 此项目用来对中文文档计算出对应的 simhash 值。 simhash 是谷歌用来进行文本去重的算法,现在广泛应用在文本处理中。计算完成之后,再求海明距离,得到最终的相似度。
  3. 所属分类:Java

    • 发布日期:2020-01-13
    • 文件大小:2097152
    • 提供者:chengbi0653
  1. simhash.zip

  2. simhash 高效的文本相似度去重算法实现 simhash是什么 Google发明的的文本去重算法,适合于大批量文档的相似度计算。 流程介绍 simhash是由 Charikar 在2002年提出来的,为了便于理解尽量不使用数学公式,分为这几步: 1、分词,把需要判断文本分词形成这个文章的特征单词。 2、hash,通过hash算法把每个词变成hash值,比如“美国”通过hash算法计算为 100101,“51区”通过hash算法计算为 101011。这样我们的字符串就变成了一串串
  3. 所属分类:互联网

    • 发布日期:2020-07-16
    • 文件大小:9437184
    • 提供者:wangxy_job