

  1. 改进的shingling算法(On the Evolution of Clusters of NearDuplicateWeb)

  2. 英文原版论文,看看作者是如何改进shingling算法来实现搜索引擎去重功能
  3. 所属分类:其它

    • 发布日期:2010-05-18
    • 文件大小:757760
    • 提供者:benlee7
  1. 网页查重算法调查报告

  2. 基于现有国内外先进算法的调研报告,囊括了现有的主要算法和网页去重的国内外现状。
  3. 所属分类:网管软件

    • 发布日期:2011-08-13
    • 文件大小:59392
    • 提供者:zaoanzhongguo
  1. Mining the Web: Discovering Knowledge from Hypertext Data

  2. 1 introduction   1.1 crawling and indexing   1.2 topic directories   1.3 clustering and classification   1.4 hyperlink analysis   1.5 resource discovery and vertical portals   1.6 structured vs. unstructured data mining   1.7 bibliographic notes par
  3. 所属分类:专业指导

    • 发布日期:2012-05-02
    • 文件大小:3145728
    • 提供者:chen_767
  1. 网页查重算法Shingling和Simhash研究

  2. 对比介绍了网页查重算法Shingling和Simhash的优劣,提出了两者适用的不同领域,是文本相似度计算的重要参考资料
  3. 所属分类:C

    • 发布日期:2012-10-17
    • 文件大小:109568
    • 提供者:sunyong1327
  1. shingling、simhash、bloom filter

  2. 相似项发现主题中的shingling、simhash、bloom filter算法java实现,测试通过,附带测试数据。
  3. 所属分类:Javascript

    • 发布日期:2013-03-23
    • 文件大小:165888
    • 提供者:c289054531
  1. 去重算法Similarity

  2. 实现了SimHash算法、MinHash算法、Shingling算法、汉明距离、Jaccard Index。供初学者参考
  3. 所属分类:Java

    • 发布日期:2013-07-12
    • 文件大小:15360
    • 提供者:sssummering114
  1. simhash cmu lecture

  2. simhash cmu 课件,如何识别相似文档, 包括shingling, minhashing 和 locality sensitive hashing
  3. 所属分类:讲义

    • 发布日期:2014-08-04
    • 文件大小:269312
    • 提供者:haozhuang1986
  1. 哈希算法-求文档相似度

  2. The book is based on Stanford Computer Science course CS246: Mining Massive Datasets (and CS345A: Data Mining). The book, like the course, is designed at the undergraduate computer science level with no formal prerequisites. To support deeper explor
  3. 所属分类:算法与数据结构

    • 发布日期:2018-03-29
    • 文件大小:41943040
    • 提供者:linxid
  1. 文本相似-Shingling、Minhash算法实验报告广工(附源码java)

  2. 实验内容:采用Shinling及Minhash技术分析以下两段文本的Jaccard相似度: (1) The TOEFL test is an English language assessment that is often required for admission by English-speaking universities and programs around the world. In addition to being accepted at more than 10,000
  3. 所属分类:Java

    • 发布日期:2019-01-10
    • 文件大小:230400
    • 提供者:baidu_39502694