您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 基于多SimHash指纹的近似文本检测

  2. SimHash算法是google采用的用来进行页面排重及文本相似度计算的算法,以计算效率高,正确率高而闻名,本文详细介绍了该算法的实现
  3. 所属分类:C

    • 发布日期:2012-10-17
    • 文件大小:354304
    • 提供者:sunyong1327
  1. 网页查重算法Shingling和Simhash研究

  2. 对比介绍了网页查重算法Shingling和Simhash的优劣,提出了两者适用的不同领域,是文本相似度计算的重要参考资料
  3. 所属分类:C

    • 发布日期:2012-10-17
    • 文件大小:109568
    • 提供者:sunyong1327
  1. shingling、simhash、bloom filter

  2. 相似项发现主题中的shingling、simhash、bloom filter算法java实现,测试通过,附带测试数据。
  3. 所属分类:Javascript

    • 发布日期:2013-03-23
    • 文件大小:165888
    • 提供者:c289054531
  1. 去重算法Similarity

  2. 实现了SimHash算法、MinHash算法、Shingling算法、汉明距离、Jaccard Index。供初学者参考
  3. 所属分类:Java

    • 发布日期:2013-07-12
    • 文件大小:15360
    • 提供者:sssummering114
  1. 数据结构常用算法c++实现

  2. 数据结构常用算法c++实现,程序目录如下: Array shuffle Prime test(trial division) Prime test(Miller-Rabin's method) 2D Array Arbitary Integer Linear congruential generator Maximum subarray problem Bit-Set Queue Stack Binary Heap Fibonacci Heap Priority Queue (list bas
  3. 所属分类:C/C++

    • 发布日期:2014-08-22
    • 文件大小:1048576
    • 提供者:hs2024966214
  1. Java实现simHash算法

  2. Java实现simHash算法,对应博客http://www.cnblogs.com/hxsyl/p/4518506.html
  3. 所属分类:Java

  1. simhash算法

  2. 用flask写了一个简单的web程序,前端页面有两个输入框,输入两段文字后,点击提交按钮,服务端收到两段文字后,调用simhash算法来计算两段文字的海明距离,注意,simhash计算短文本时效果不好
  3. 所属分类:Python

    • 发布日期:2016-06-04
    • 文件大小:113664
    • 提供者:kwsy2008
  1. Simhash java实现

  2. Java实现simHash算法
  3. 所属分类:Java

    • 发布日期:2017-05-27
    • 文件大小:6144
    • 提供者:lzxadsl
  1. java实现simhash

  2. java实现simhash算法,适用于网页去重,文档相似性分析
  3. 所属分类:Java

    • 发布日期:2017-10-12
    • 文件大小:6144
    • 提供者:qq_25237355
  1. java实现中文分词simhash算法

  2. simhash算法对字符串计算权重时,对中文要做特殊操作,及先分词,请自行下载sanford中文分词jar包及中文分词库
  3. 所属分类:Java

    • 发布日期:2017-10-12
    • 文件大小:3072
    • 提供者:qq_25237355
  1. simhash 文本相似度检测介绍

  2. 文本相似度检测算法simhash 希望对于大家有用
  3. 所属分类:其它

    • 发布日期:2017-10-13
    • 文件大小:22528
    • 提供者:lb521200200
  1. 程序员编程艺术:面试和算法心得.pdf

  2. 第一部分 数据结构 • • • 第一章 字符串 o 1.0 本章导读 o 1.1 旋转字符串 o 1.2 字符串包含 o 1.3 字符串转换成整数 o 1.4 回文判断 o 1.5 最长回文子串 o 1.6 字符串的全排列 o 1.10 本章习题 第二章 数组 o 2.0 本章导读 o 2.1 寻找最小的 k 个数 o 2.2 寻找和为定值的两个数 o 2.3 寻找和为定值的多个数 o 2.4 最大连续子数组和 o 2.5 跳台阶 o 2.6 奇偶排序 o 2.7 荷兰国旗 o 2.8 矩阵相
  3. 所属分类:C

    • 发布日期:2017-11-16
    • 文件大小:4194304
    • 提供者:xjj7540916
  1. 中文文本相似度匹配算法 simHash 海明距离 IK分词

  2. 中文文本相似度匹配算法 simHash 海明距离 IK分词 完整的可运行的示例代码 包含simHash 算法,使用IK 对中文文本进行分词处理
  3. 所属分类:算法与数据结构

    • 发布日期:2017-11-17
    • 文件大小:4194304
    • 提供者:bruce_shan
  1. c#字符串相似度源码 编辑距离 余弦相似性 SimHash

  2. C#源码,演示字符串相似度 编辑距离 余弦相似性 SimHash算法
  3. 所属分类:C#

    • 发布日期:2018-05-22
    • 文件大小:27262976
    • 提供者:qq_29577295
  1. 中文文本相似度匹配算法

  2. 中文文本相似度匹配算法 simHash 海明距离 IK分词 完整的可运行的示例代码 包含simHash 算法,使用IK 对中文文本进行分词处理
  3. 所属分类:Java

    • 发布日期:2018-07-15
    • 文件大小:4194304
    • 提供者:rangjiao5778
  1. simhash算法库simhash.zip

  2. 专门针对中文文档的simhash算法库 简介 此项目用来对中文文档计算出对应的 simhash 值。 simhash 是谷歌用来进行文本去重的算法,现在广泛应用在文本处理中。 详见SimhashBlog 特性 使用 CppJieba 作为分词器和关键词抽取器 使用 jenkins 作为 hash 函数 hpp 风格,所有源码都是 .hpp 文件里面,方便使用。 没有链接,就没有伤害。 依赖 g (version >= 4.1 recommended), or clang
  3. 所属分类:其它

    • 发布日期:2019-07-16
    • 文件大小:4194304
    • 提供者:weixin_39840650
  1. simhash算法的java实现simhash-java.zip

  2. simhash 算法的 java 实现。特点计算字符串的 simhash通过构建智能索引来计算所有字符串之间的相似性,因此可以处理大数据使用使用输入文件和输出文件运行 Maininputfile 的格式(参见 src / test_in):一个文件每行用 utf8 字符集outputfile 格式 start //start flag first line // doc sencode lien // doc1\tdist the dist is the hamming distance be
  3. 所属分类:其它

    • 发布日期:2019-07-19
    • 文件大小:1048576
    • 提供者:weixin_39840588
  1. simhash, Simhash算法的python 实现.zip

  2. simhash, Simhash算法的python 实现 simhash这是 Simhash的python 实现。正在启动http://leons.im/posts/a-python-implementation-of-simhash-algorithm/插件生成状态
  3. 所属分类:其它

    • 发布日期:2019-09-18
    • 文件大小:6144
    • 提供者:weixin_38744270
  1. simhash:中文文档simhash值计算-源码

  2. 专门针对中文文档的simhash算法库 简介 此项目用来对中文文档计算出对应的simhash值。simhash是谷歌用来进行文本去重的算法,现在广泛应用在文本处理中。 详见 特性 使用作为分词器和关键字抽取器 使用作为hash函数 hpp风格,所有源码都是.hpp文件里面,方便使用。没有链接,就没有伤害。 本项目的副产品项目: 提供了简单的simhash HTTP服务。 依赖 g ++(建议版本> = 4.1)或clang ++。 用法 mkdir build cd build cmake
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:4194304
    • 提供者:weixin_42110038
  1. python实现simhash算法实例

  2. Simhash的算法简单的来说就是,从海量文本中快速搜索和已知simhash相差小于k位的simhash集合,这里每个文本都可以用一个simhash值来代表,一个simhash有64bit,相似的文本,64bit也相似,论文中k的经验值为3。该方法的缺点如优点一样明显,主要有两点,对于短文本,k值很敏感;另一个是由于算法是以空间换时间,系统内存吃不消。 复制代码 代码如下:#!/usr/bin/python# coding=utf-8class simhash:    #构造函数    def
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:81920
    • 提供者:weixin_38521169
« 12 3 »