点数信息
www.dssz.net
注册会员
|
设为首页
|
加入收藏夹
您好,欢迎光临本网站!
[请登录]
!
[注册会员]
!
首页
移动开发
云计算
大数据
数据库
游戏开发
人工智能
网络技术
区块链
操作系统
模糊查询
热门搜索:
源码
Android
整站
插件
识别
p2p
游戏
算法
更多...
在线客服QQ:632832888
当前位置:
资源下载
搜索资源 - 网页去重
下载资源分类
移动开发
开发技术
课程资源
网络技术
操作系统
安全技术
数据库
行业
服务器应用
存储
信息化
考试认证
云计算
大数据
跨平台
音视频
游戏开发
人工智能
区块链
在结果中搜索
所属系统
Windows
Linux
FreeBSD
Unix
Dos
PalmOS
WinCE
SymbianOS
MacOS
Android
开发平台
Visual C
Visual.Net
Borland C
CBuilder
Dephi
gcc
VBA
LISP
IDL
VHDL
Matlab
MathCAD
Flash
Xcode
Android STU
LabVIEW
开发语言
C/C++
Pascal
ASM
Java
PHP
Basic/ASP
Perl
Python
VBScript
JavaScript
SQL
FoxBase
SHELL
E语言
OC/Swift
文件类型
源码
程序
CHM
PDF
PPT
WORD
Excel
Access
HTML
Text
资源分类
搜索资源列表
去除重复网页的改进方法
关于网页去重的文章,不错
所属分类:
专业指导
发布日期:2007-10-10
文件大小:49152
提供者:
SQL0815
网页去重策略(基于特征向量的算法)
网页去重算法分析,通过对网页的对比分析,选择适当的算法和策略实施分块,去重等
所属分类:
其它
发布日期:2009-08-28
文件大小:25600
提供者:
libing555
基于特征串的大规模中文网页快速去重算法研究
这是一篇讲述通过特征串来对中文网页进行快速的地去重。希望有人用的到!
所属分类:
其它
发布日期:2009-09-11
文件大小:340992
提供者:
zhangxin3053602
基于新闻网页主题要素的网页去重方法研究
基于新闻网页主题要素的网页去重方法研究,基于新闻网页主题要素的网页去重方法研究
所属分类:
Java
发布日期:2010-03-26
文件大小:1048576
提供者:
yeduoduo1985
布隆过滤器在网页去重中的应用
布隆过滤器在网页去重中的应用 , 海量数据处理中的一个绝好应用
所属分类:
专业指导
发布日期:2010-11-29
文件大小:2097152
提供者:
jinyu123
大规模网页快速去重算法.pdf
大规模网页快速去重算法,大规模网页快速去重算法,大规模网页快速去重算法,大规模网页快速去重算法,大规模网页快速去重算法,大规模网页快速去重算法,
所属分类:
其它
发布日期:2010-11-30
文件大小:427008
提供者:
wang382758656
网页去重方法研究.pdf
网页去重方法研究.pdf网页去重方法研究.pdf
所属分类:
网络基础
发布日期:2011-03-17
文件大小:525312
提供者:
wuliaoz
网页查重算法调查报告
基于现有国内外先进算法的调研报告,囊括了现有的主要算法和网页去重的国内外现状。
所属分类:
网管软件
发布日期:2011-08-13
文件大小:59392
提供者:
zaoanzhongguo
一种基于文本抽取的网页正文去重算法
搜索结果页面的去重处理是提高网页检索结果质量的有效途径,笔者结合二叉排序树设计了一种基于文本抽取的网页正文去重 算法,本文给出了该算法的具体实现。实验测试结果表明该算法在判断准确率、时间复杂度方面均具有一定优势,可应用于网络信息检索结果 优化处理中的页面正文内容去重。
所属分类:
互联网
发布日期:2011-08-20
文件大小:188416
提供者:
jkants
大规模网页快速去重算法
大规模网页快速去重算法
所属分类:
其它
发布日期:2008-05-05
文件大小:427008
提供者:
shuizimuzhongling
基于特征句抽取的网页去重研究
基于特征句抽取的网页去重研究
所属分类:
专业指导
发布日期:2008-05-05
文件大小:365568
提供者:
shuizimuzhongling
网页去重:搜索引擎重复网页发现技术分析
网页去重:搜索引擎重复网页发现技术分析
所属分类:
其它
发布日期:2008-05-12
文件大小:34816
提供者:
shuizimuzhongling
基于特征码的网页去重算法研究
本文探讨了数据挖掘和搜索引擎的理论框架,以去除内容重复的冗余网页为研究目标, 分析了搜索引擎工作原理, 讨论了现有的去重算法。给出了一种基于特征码的网页去重算法, 并采用二叉排序树实现了算法。实验证明算法有着较高的去重准确率、召回率, 达到了对算法的预期。
所属分类:
网络安全
发布日期:2012-04-05
文件大小:200704
提供者:
bbs271
网页去重方法研究及算法设计
介绍了几种网页去重的方法以及算法的设计,适合新人对网页去重理解
所属分类:
其它
发布日期:2013-06-17
文件大小:234496
提供者:
qjzcy
java实现simhash
java实现simhash算法,适用于网页去重,文档相似性分析
所属分类:
Java
发布日期:2017-10-12
文件大小:6144
提供者:
qq_25237355
jQuery图片去重网页小游戏代码
jQuery图片去重网页小游戏代码是一款简单的益智类游戏,连续点击两张图片,当相同时会显示,反之则隐藏,图片全部显示出来之后就胜利了。
所属分类:
其它
发布日期:2020-06-10
文件大小:65536
提供者:
weixin_38672815
使用Python检测文章抄袭及去重算法原理解析
去重(或叫网页去重)是根据文章(或网页)的文字内容来判断多个文章之间是否重复。这篇文章主要介绍了用Python写了个检测文章抄袭,详谈去重算法原理,需要的朋友可以参考下
所属分类:
其它
发布日期:2020-09-19
文件大小:493568
提供者:
weixin_38740328
网页去重的改进算法
针对网页内容相似重复的特点,提出了一种改进算法对网页进行去重处理。该方法能够有效地对网页进行去重,并能对网页信息进行冗余识别处理。实验结果表明,与原有网页去重算法相比,该算法的执行效果提高了14.3%,对网页去重有了很明显的改善。
所属分类:
其它
发布日期:2020-10-20
文件大小:454656
提供者:
weixin_38618312
python 爬虫 实现增量去重和定时爬取实例
前言: 在爬虫过程中,我们可能需要重复的爬取同一个网站,为了避免重复的数据存入我们的数据库中 通过实现增量去重 去解决这一问题 本文还针对了那些需要实时更新的网站 增加了一个定时爬取的功能; 本文作者同开源中国(殊途同归_); 解决思路: 1.获取目标url 2.解析网页 3.存入数据库(增量去重) 4.异常处理 5.实时更新(定时爬取) 下面为数据库的配置 mysql_congif.py: import pymysql def insert_db(db_table, issue, ti
所属分类:
其它
发布日期:2020-12-20
文件大小:47104
提供者:
weixin_38686231
使用Python检测文章抄袭及去重算法原理解析
在互联网出现之前,“抄”很不方便,一是“源”少,而是发布渠道少;而在互联网出现之后,“抄”变得很简单,铺天盖地的“源”源源不断,发布渠道也数不胜数,博客论坛甚至是自建网站,而爬虫还可以让“抄”完全自动化不费劲。这就导致了互联网上的“文章”重复性很高。这里的“文章”只新闻、博客等文字占据绝大部分内容的网页。 中文新闻网站的“转载”(其实就是抄)现象非常严重,这种“转载”几乎是全文照抄,或改下标题,或是改下编辑姓名,或是文字个别字修改。所以,对新闻网页的去重很有必要。 一、去重算法原理 文章去重(
所属分类:
其它
发布日期:2021-01-20
文件大小:496640
提供者:
weixin_38629873
«
1
2
3
4
5
6
7
8
9
10
»