您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 去除重复网页的改进方法

  2. 关于网页去重的文章,不错
  3. 所属分类:专业指导

    • 发布日期:2007-10-10
    • 文件大小:49152
    • 提供者:SQL0815
  1. 网页去重策略(基于特征向量的算法)

  2. 网页去重算法分析,通过对网页的对比分析,选择适当的算法和策略实施分块,去重等
  3. 所属分类:其它

    • 发布日期:2009-08-28
    • 文件大小:25600
    • 提供者:libing555
  1. 基于特征串的大规模中文网页快速去重算法研究

  2. 这是一篇讲述通过特征串来对中文网页进行快速的地去重。希望有人用的到!
  3. 所属分类:其它

    • 发布日期:2009-09-11
    • 文件大小:340992
    • 提供者:zhangxin3053602
  1. 基于新闻网页主题要素的网页去重方法研究

  2. 基于新闻网页主题要素的网页去重方法研究,基于新闻网页主题要素的网页去重方法研究
  3. 所属分类:Java

    • 发布日期:2010-03-26
    • 文件大小:1048576
    • 提供者:yeduoduo1985
  1. 布隆过滤器在网页去重中的应用

  2. 布隆过滤器在网页去重中的应用 , 海量数据处理中的一个绝好应用
  3. 所属分类:专业指导

    • 发布日期:2010-11-29
    • 文件大小:2097152
    • 提供者:jinyu123
  1. 大规模网页快速去重算法.pdf

  2. 大规模网页快速去重算法,大规模网页快速去重算法,大规模网页快速去重算法,大规模网页快速去重算法,大规模网页快速去重算法,大规模网页快速去重算法,
  3. 所属分类:其它

    • 发布日期:2010-11-30
    • 文件大小:427008
    • 提供者:wang382758656
  1. 网页去重方法研究.pdf

  2. 网页去重方法研究.pdf网页去重方法研究.pdf
  3. 所属分类:网络基础

    • 发布日期:2011-03-17
    • 文件大小:525312
    • 提供者:wuliaoz
  1. 网页查重算法调查报告

  2. 基于现有国内外先进算法的调研报告,囊括了现有的主要算法和网页去重的国内外现状。
  3. 所属分类:网管软件

    • 发布日期:2011-08-13
    • 文件大小:59392
    • 提供者:zaoanzhongguo
  1. 一种基于文本抽取的网页正文去重算法

  2. 搜索结果页面的去重处理是提高网页检索结果质量的有效途径,笔者结合二叉排序树设计了一种基于文本抽取的网页正文去重 算法,本文给出了该算法的具体实现。实验测试结果表明该算法在判断准确率、时间复杂度方面均具有一定优势,可应用于网络信息检索结果 优化处理中的页面正文内容去重。
  3. 所属分类:互联网

    • 发布日期:2011-08-20
    • 文件大小:188416
    • 提供者:jkants
  1. 大规模网页快速去重算法

  2. 大规模网页快速去重算法
  3. 所属分类:其它

  1. 基于特征句抽取的网页去重研究

  2. 基于特征句抽取的网页去重研究
  3. 所属分类:专业指导

  1. 网页去重:搜索引擎重复网页发现技术分析

  2. 网页去重:搜索引擎重复网页发现技术分析
  3. 所属分类:其它

  1. 基于特征码的网页去重算法研究

  2. 本文探讨了数据挖掘和搜索引擎的理论框架,以去除内容重复的冗余网页为研究目标, 分析了搜索引擎工作原理, 讨论了现有的去重算法。给出了一种基于特征码的网页去重算法, 并采用二叉排序树实现了算法。实验证明算法有着较高的去重准确率、召回率, 达到了对算法的预期。
  3. 所属分类:网络安全

    • 发布日期:2012-04-05
    • 文件大小:200704
    • 提供者:bbs271
  1. 网页去重方法研究及算法设计

  2. 介绍了几种网页去重的方法以及算法的设计,适合新人对网页去重理解
  3. 所属分类:其它

    • 发布日期:2013-06-17
    • 文件大小:234496
    • 提供者:qjzcy
  1. java实现simhash

  2. java实现simhash算法,适用于网页去重,文档相似性分析
  3. 所属分类:Java

    • 发布日期:2017-10-12
    • 文件大小:6144
    • 提供者:qq_25237355
  1. jQuery图片去重网页小游戏代码

  2. jQuery图片去重网页小游戏代码是一款简单的益智类游戏,连续点击两张图片,当相同时会显示,反之则隐藏,图片全部显示出来之后就胜利了。
  3. 所属分类:其它

    • 发布日期:2020-06-10
    • 文件大小:65536
    • 提供者:weixin_38672815
  1. 使用Python检测文章抄袭及去重算法原理解析

  2. 去重(或叫网页去重)是根据文章(或网页)的文字内容来判断多个文章之间是否重复。这篇文章主要介绍了用Python写了个检测文章抄袭,详谈去重算法原理,需要的朋友可以参考下
  3. 所属分类:其它

    • 发布日期:2020-09-19
    • 文件大小:493568
    • 提供者:weixin_38740328
  1. 网页去重的改进算法

  2. 针对网页内容相似重复的特点,提出了一种改进算法对网页进行去重处理。该方法能够有效地对网页进行去重,并能对网页信息进行冗余识别处理。实验结果表明,与原有网页去重算法相比,该算法的执行效果提高了14.3%,对网页去重有了很明显的改善。
  3. 所属分类:其它

    • 发布日期:2020-10-20
    • 文件大小:454656
    • 提供者:weixin_38618312
  1. python 爬虫 实现增量去重和定时爬取实例

  2. 前言: 在爬虫过程中,我们可能需要重复的爬取同一个网站,为了避免重复的数据存入我们的数据库中 通过实现增量去重 去解决这一问题 本文还针对了那些需要实时更新的网站 增加了一个定时爬取的功能; 本文作者同开源中国(殊途同归_); 解决思路: 1.获取目标url 2.解析网页 3.存入数据库(增量去重) 4.异常处理 5.实时更新(定时爬取) 下面为数据库的配置 mysql_congif.py: import pymysql def insert_db(db_table, issue, ti
  3. 所属分类:其它

    • 发布日期:2020-12-20
    • 文件大小:47104
    • 提供者:weixin_38686231
  1. 使用Python检测文章抄袭及去重算法原理解析

  2. 在互联网出现之前,“抄”很不方便,一是“源”少,而是发布渠道少;而在互联网出现之后,“抄”变得很简单,铺天盖地的“源”源源不断,发布渠道也数不胜数,博客论坛甚至是自建网站,而爬虫还可以让“抄”完全自动化不费劲。这就导致了互联网上的“文章”重复性很高。这里的“文章”只新闻、博客等文字占据绝大部分内容的网页。 中文新闻网站的“转载”(其实就是抄)现象非常严重,这种“转载”几乎是全文照抄,或改下标题,或是改下编辑姓名,或是文字个别字修改。所以,对新闻网页的去重很有必要。 一、去重算法原理 文章去重(
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:496640
    • 提供者:weixin_38629873
« 12 3 4 5 6 7 8 9 10 »