您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 基于多SimHash指纹的近似文本检测

  2. SimHash算法是google采用的用来进行页面排重及文本相似度计算的算法,以计算效率高,正确率高而闻名,本文详细介绍了该算法的实现
  3. 所属分类:C

    • 发布日期:2012-10-17
    • 文件大小:354304
    • 提供者:sunyong1327
  1. 网页查重算法Shingling和Simhash研究

  2. 对比介绍了网页查重算法Shingling和Simhash的优劣,提出了两者适用的不同领域,是文本相似度计算的重要参考资料
  3. 所属分类:C

    • 发布日期:2012-10-17
    • 文件大小:109568
    • 提供者:sunyong1327
  1. shingling、simhash、bloom filter

  2. 相似项发现主题中的shingling、simhash、bloom filter算法java实现,测试通过,附带测试数据。
  3. 所属分类:Javascript

    • 发布日期:2013-03-23
    • 文件大小:165888
    • 提供者:c289054531
  1. simhash cmu lecture

  2. simhash cmu 课件,如何识别相似文档, 包括shingling, minhashing 和 locality sensitive hashing
  3. 所属分类:讲义

    • 发布日期:2014-08-04
    • 文件大小:269312
    • 提供者:haozhuang1986
  1. Java实现simHash算法

  2. Java实现simHash算法,对应博客http://www.cnblogs.com/hxsyl/p/4518506.html
  3. 所属分类:Java

  1. simhash文本相似度

  2. 文本相似度判断 simhash 海明距离<3 判断为相似
  3. 所属分类:Python

    • 发布日期:2015-09-01
    • 文件大小:4096
    • 提供者:qq_18252221
  1. simhash算法

  2. 用flask写了一个简单的web程序,前端页面有两个输入框,输入两段文字后,点击提交按钮,服务端收到两段文字后,调用simhash算法来计算两段文字的海明距离,注意,simhash计算短文本时效果不好
  3. 所属分类:Python

    • 发布日期:2016-06-04
    • 文件大小:113664
    • 提供者:kwsy2008
  1. Simhash java实现

  2. Java实现simHash算法
  3. 所属分类:Java

    • 发布日期:2017-05-27
    • 文件大小:6144
    • 提供者:lzxadsl
  1. java实现simhash

  2. java实现simhash算法,适用于网页去重,文档相似性分析
  3. 所属分类:Java

    • 发布日期:2017-10-12
    • 文件大小:6144
    • 提供者:qq_25237355
  1. java实现中文分词simhash算法

  2. simhash算法对字符串计算权重时,对中文要做特殊操作,及先分词,请自行下载sanford中文分词jar包及中文分词库
  3. 所属分类:Java

    • 发布日期:2017-10-12
    • 文件大小:3072
    • 提供者:qq_25237355
  1. simhash 文本相似度检测介绍

  2. 文本相似度检测算法simhash 希望对于大家有用
  3. 所属分类:其它

    • 发布日期:2017-10-13
    • 文件大小:22528
    • 提供者:lb521200200
  1. 中文文本相似度匹配算法 simHash 海明距离 IK分词

  2. 中文文本相似度匹配算法 simHash 海明距离 IK分词 完整的可运行的示例代码 包含simHash 算法,使用IK 对中文文本进行分词处理
  3. 所属分类:算法与数据结构

    • 发布日期:2017-11-17
    • 文件大小:4194304
    • 提供者:bruce_shan
  1. c#字符串相似度源码 编辑距离 余弦相似性 SimHash

  2. C#源码,演示字符串相似度 编辑距离 余弦相似性 SimHash算法
  3. 所属分类:C#

    • 发布日期:2018-05-22
    • 文件大小:27262976
    • 提供者:qq_29577295
  1. SimHash-java实现及海明距离

  2. 计算两个文本的相似度,使用到了Simhash、分词、海明距离等技术
  3. 所属分类:Java

    • 发布日期:2018-10-18
    • 文件大小:1048576
    • 提供者:lyxlybhzl
  1. simhash算法库simhash.zip

  2. 专门针对中文文档的simhash算法库 简介 此项目用来对中文文档计算出对应的 simhash 值。 simhash 是谷歌用来进行文本去重的算法,现在广泛应用在文本处理中。 详见SimhashBlog 特性 使用 CppJieba 作为分词器和关键词抽取器 使用 jenkins 作为 hash 函数 hpp 风格,所有源码都是 .hpp 文件里面,方便使用。 没有链接,就没有伤害。 依赖 g (version >= 4.1 recommended), or clang
  3. 所属分类:其它

    • 发布日期:2019-07-16
    • 文件大小:4194304
    • 提供者:weixin_39840650
  1. SimHash源码.docx

  2. SimHash源码.docx
  3. 所属分类:Java

    • 发布日期:2020-05-27
    • 文件大小:17408
    • 提供者:Us006124
  1. simhash.zip

  2. simhash 高效的文本相似度去重算法实现 simhash是什么 Google发明的的文本去重算法,适合于大批量文档的相似度计算。 流程介绍 simhash是由 Charikar 在2002年提出来的,为了便于理解尽量不使用数学公式,分为这几步: 1、分词,把需要判断文本分词形成这个文章的特征单词。 2、hash,通过hash算法把每个词变成hash值,比如“美国”通过hash算法计算为 100101,“51区”通过hash算法计算为 101011。这样我们的字符串就变成了一串串
  3. 所属分类:互联网

    • 发布日期:2020-07-16
    • 文件大小:9437184
    • 提供者:wangxy_job
  1. simhash源码

  2. simhash源码
  3. 所属分类:Python

    • 发布日期:2017-01-12
    • 文件大小:4096
    • 提供者:lafeedfh
  1. .NET下文本相似度算法余弦定理和SimHash浅析及应用实例分析

  2. 主要介绍了.NET下文本相似度算法余弦定理和SimHash浅析及应用,实例形式详细讲述了相似度算法余弦定理和SimHash的原理与用法,需要的朋友可以参考下
  3. 所属分类:其它

    • 发布日期:2020-10-24
    • 文件大小:68608
    • 提供者:weixin_38660108
  1. .NET下文本相似度算法余弦定理和SimHash浅析及应用实例分析

  2. 本文实例讲述了.NET下文本相似度算法余弦定理和SimHash浅析及应用。分享给大家供大家参考。具体分析如下: 余弦相似性 原理:首先我们先把两段文本分词,列出来所有单词,其次我们计算每个词语的词频,最后把词语转换为向量,这样我们就只需要计算两个向量的相似程度.   我们简单表述如下   文本1:我/爱/北京/天安门/ 经过分词求词频得出向量(伪向量)  [1,1,1,1]   文本2:我们/都爱/北京/天安门/ 经过分词求词频得出向量(伪向量)  [1,0,1,2]   我们可以把它们想象成空
  3. 所属分类:其它

    • 发布日期:2021-01-02
    • 文件大小:73728
    • 提供者:weixin_38559203
« 12 3 »