您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 自己动手写搜索引擎(罗刚著).doc

  2. 自己动手写搜索引擎 1 第1章 了解搜索引擎 1 1.1 Google神话 1 1.2 体验搜索引擎 1 1.3 你也可以做搜索引擎 4 1.4 本章小结 4 第2章 遍历搜索引擎技术 5 2.1 30分钟实现的搜索引擎 5 2.1.1 准备工作环境(10分钟) 5 2.1.2 编写代码(15分钟) 6 2.1.3 发布运行(5分钟) 9 2.2 搜索引擎基本技术 14 2.2.1 网络蜘蛛 14 2.2.2 全文索引结构 14 2.2.3 Lucene 全文检索引擎 15 2.2.4 Nut
  3. 所属分类:其它

    • 发布日期:2011-04-18
    • 文件大小:6291456
    • 提供者:qq736655941
  1. 网页排重 -- 简单易行的Charikar算法

  2. 网页排重 -- 简单易行的Charikar算法
  3. 所属分类:其它

  1. 自己动手写网络爬虫(全).pdf

  2. 《自己动手写网络爬虫》介绍了网络爬虫开发中的关键问题与Java实现。主要包括从互联网获取信息与提取信息和对Web信息挖掘等内容。《自己动手写网络爬虫》在介绍基本原理的同时注重辅以具体代码实现来帮助读者加深理解,书中部分代码甚至可以直接使用。   《自己动手写网络爬虫》此书代码清晰,但是对初学者不太合适,因为完全没有介绍开发平台和配置环境,以及在程序中所用到的jar包,初学者的动手能力有限,使得程序很难调通,高手倒是可以挑战一下 第1章 全面剖析网络爬虫 3   1.1 抓取网页   1.1.1
  3. 所属分类:专业指导

    • 发布日期:2011-12-17
    • 文件大小:2097152
    • 提供者:usenamer
  1. 《自己动手写搜索引擎》罗刚——doc版

  2.  《自己动手写搜索引擎》是猎兔企业搜索开发团队的软件产品研发和项目实践的经验汇总。《自己动手写搜索引擎》全方位展现出一个商用级别的Lucene搜索解决方案,主要包括爬虫、自然语言处理和搜索实现部分。爬虫部分介绍了网页遍历方法和从网页提取主要内容的方法。   自然语言处理部分包括了中文分词从理论到实现以及在搜索引擎中的实用等细节。   其他自然语言处理的经典问题与实现包括:文档排重、文本分类、自动聚类、语法解析树、拼写检查、拼音转换等理论与实现方法。   在实现搜索方面,《自己动手写搜索引擎》用
  3. 所属分类:Web开发

  1. 一种基于关键词的近似网页检测算法

  2. 针对海量Web文本信息,利用从网页主题内容提取出来的特征关键词,在倒排索引基础上建立相似度计算模型。对一篇新入库的网页文档,利用所包含的关键词迅速缩小计算范围,提高计算效率。实验结果表明该算法是有效的,小规模评测结果得到较好的效果。
  3. 所属分类:其它

    • 发布日期:2008-06-22
    • 文件大小:169984
    • 提供者:wowrur
  1. 自己动手写搜索引擎(罗刚)

  2. 自己动手写搜索引擎 1 第1章 了解搜索引擎 1 1.1 Google神话 1 1.2 体验搜索引擎 1 1.3 你也可以做搜索引擎 4 1.4 本章小结 4 第2章 遍历搜索引擎技术 5 2.1 30分钟实现的搜索引擎 5 2.1.1 准备工作环境(10分钟) 5 2.1.2 编写代码(15分钟) 6 2.1.3 发布运行(5分钟) 9 2.2 搜索引擎基本技术 14 2.2.1 网络蜘蛛 14 2.2.2 全文索引结构 14 2.2.3 Lucene 全文检索引擎 15 2.2.4 Nut
  3. 所属分类:Java

    • 发布日期:2012-04-25
    • 文件大小:3145728
    • 提供者:jayghost
  1. 网页命名通

  2. 网上的许多资料,下载回来后,其文件名大都是形如czxt01.htm,czxt02.htm等等,还得一个个打开才能看到该网页到底讲的是什么。 本程序可以将指定目录下的网页文件(*.htm,*.html),用该文件中的标题来重命名该文件,能正确处理文件重名及非法字符用作文件名的问题。也可生成一个索引文件(index.htm),方便地浏览。可以设置索引文件显示的颜色及背景图片。 本程序采用新的排序算法,确保文件名中有数字序列时的正确排序,不会将 xxx10.htm 排在 xxx4.htm 的前面。2
  3. 所属分类:其它

    • 发布日期:2006-03-16
    • 文件大小:40960
    • 提供者:xbdvcx2
  1. 自己动手写网络爬虫 完整版

  2. 第1篇 自己动手抓取数据 第1章 全面剖析网络爬虫 3 1.1 抓取网页 1.1.1 深入理解url 1.1.2 通过指定的url抓取网页内容 1.1.3 java网页抓取示例 1.1.4 处理http状态码 1.2 宽度优先爬虫和带偏好的爬虫 1.2.1 图的宽度优先遍历 1.2.2 宽度优先遍历互联网 1.2.3 java宽度优先爬虫示例 1.2.4 带偏好的爬虫 1.2.5 java带偏好的爬虫示例 1.3 设计爬虫队列 1.3.1 爬虫队列 1.3.2 使用berkeley db构建爬
  3. 所属分类:Java

    • 发布日期:2013-02-25
    • 文件大小:26214400
    • 提供者:apxar
  1. 自己动手写网络爬虫 PDF

  2. 第1篇 自己动手抓取数据 第1章 全面剖析网络爬虫 3 1.1 抓取网页 1.1.1 深入理解url 1.1.2 通过指定的url抓取网页内容 1.1.3 java网页抓取示例 1.1.4 处理http状态码 1.2 宽度优先爬虫和带偏好的爬虫 1.2.1 图的宽度优先遍历 1.2.2 宽度优先遍历互联网 1.2.3 java宽度优先爬虫示例 1.2.4 带偏好的爬虫 1.2.5 java带偏好的爬虫示例 1.3 设计爬虫队列 1.3.1 爬虫队列 1.3.2 使用berkeley db构建爬
  3. 所属分类:Java

    • 发布日期:2013-07-12
    • 文件大小:26214400
    • 提供者:xianchen1122
  1. 自己动手写网络爬虫_完整版

  2. 第1篇 自己动手抓取数据 第1章 全面剖析网络爬虫 3 1.1 抓取网页 1.1.1 深入理解url 1.1.2 通过指定的url抓取网页内容 1.1.3 java网页抓取示例 1.1.4 处理http状态码 1.2 宽度优先爬虫和带偏好的爬虫 1.2.1 图的宽度优先遍历 1.2.2 宽度优先遍历互联网 1.2.3 java宽度优先爬虫示例 1.2.4 带偏好的爬虫 1.2.5 java带偏好的爬虫示例 1.3 设计爬虫队列 1.3.1 爬虫队列 1.3.2 使用berkeley db构建爬
  3. 所属分类:Java

    • 发布日期:2013-09-09
    • 文件大小:26214400
    • 提供者:haobaoipv6
  1. 商剑网络信息万能采集器(商剑采集-完全免费!!!)

  2. 软件名称: 商剑网络信息万能采集器 软件版本:3.2 应用平台:Win9x/Me/NT/2000/XP/2003 官方网址:http://www.100spider.cn/ 下载网址1:http://www.100spider.cn/F-spider.rar 软件界面图:http://www.100spider.cn/p/1.jpg 软件简介: 商剑,能把整个百度的图片都采集下来! 商剑,能把淘宝网全部商品信息都采集下来! 商剑,能把聪慧网全部企业信息都采集下来! 商剑信息采集软件,是一款可以
  3. 所属分类:网络基础

    • 发布日期:2008-09-28
    • 文件大小:3145728
    • 提供者:spider100
  1. 自己动手写网络爬虫

  2. 完整版《自己动手写网络爬虫》! 第1篇 自己动手抓取数据 第1章 全面剖析网络爬虫 3 1.1 抓取网页 1.1.1 深入理解url 1.1.2 通过指定的url抓取网页内容 1.1.3 java网页抓取示例 1.1.4 处理http状态码 1.2 宽度优先爬虫和带偏好的爬虫 1.2.1 图的宽度优先遍历 1.2.2 宽度优先遍历互联网 1.2.3 java宽度优先爬虫示例 1.2.4 带偏好的爬虫 1.2.5 java带偏好的爬虫示例 1.3 设计爬虫队列 1.3.1 爬虫队列 1.3.2
  3. 所属分类:专业指导

    • 发布日期:2013-10-27
    • 文件大小:28311552
    • 提供者:qq674708957
  1. 无障碍网页设计技术手册

  2. 壹、 摘要 1 貳、 手冊內容說明 2 參、 無障礙網頁設計技術 4 規範一、對於聽覺及視覺內容要提供相等的替代文字內容 4 1-1對於網頁中非文字的聽覺與視覺內容,應提供相等內容的替代文字(如透過"alt"、"longdesc")[第一優先等級] 4 1-1-1替代文字 4 1-1-2條列項目圖片的替代文字 4 1-1-3圖片連結的替代文字 5 1-1-4圖片的簡短替代文字 5 1-1-5圖片的較長文字敘述 6 1-1-6影像地圖區域的替代文字 7 1-1-7附屬小程式(applets)及物
  3. 所属分类:网络基础

    • 发布日期:2014-12-11
    • 文件大小:1007616
    • 提供者:qq_24415977
  1. 自己动手写网络爬虫

  2. 第1篇 自己动手抓取数据 第1章 全面剖析网络爬虫 3 1.1 抓取网页 1.1.1 深入理解url 1.1.2 通过指定的url抓取网页内容 1.1.3 java网页抓取示例 1.1.4 处理http状态码 1.2 宽度优先爬虫和带偏好的爬虫 1.2.1 图的宽度优先遍历 1.2.2 宽度优先遍历互联网 1.2.3 java宽度优先爬虫示例 1.2.4 带偏好的爬虫 1.2.5 java带偏好的爬虫示例 1.3 设计爬虫队列 1.3.1 爬虫队列 1.3.2 使用berkeley db构建爬
  3. 所属分类:Java

    • 发布日期:2015-12-25
    • 文件大小:26214400
    • 提供者:mr_boot
  1. 自己动手写网络爬虫

  2. 第1篇 自己动手抓取数据 第1章 全面剖析网络爬虫 3 1.1 抓取网页 1.1.1 深入理解url 1.1.2 通过指定的url抓取网页内容 1.1.3 java网页抓取示例 1.1.4 处理http状态码 1.2 宽度优先爬虫和带偏好的爬虫 1.2.1 图的宽度优先遍历 1.2.2 宽度优先遍历互联网 1.2.3 java宽度优先爬虫示例 1.2.4 带偏好的爬虫 1.2.5 java带偏好的爬虫示例 1.3 设计爬虫队列 1.3.1 爬虫队列 1.3.2 使用berkeley db构建爬
  3. 所属分类:Java

    • 发布日期:2016-03-05
    • 文件大小:26214400
    • 提供者:cszhouyang
  1. 百度咋做长文本去重(一分钟系列)

  2. 在抄袭成风的互联网环境下,采用“分句”的方式,用5条最长的网页内容作为网页的签名,能够极大的降低排重系统复杂度,提高排重准确率,不失为一种好的选择。
  3. 所属分类:Java

    • 发布日期:2017-03-01
    • 文件大小:17408
    • 提供者:hyy80688
  1. C++网络爬虫项目

  2. WEBCRAWLER 网络爬虫实训项目 1 WEBCRAWLER 网 络 爬 虫 实 训 项 目 文档版本: 1.0.0.1 编写单位: 达内IT培训集团 C++教学研发部 编写人员: 闵卫 定稿日期: 2015年11月20日 星期五WEBCRAWLER 网络爬虫实训项目 2 1. 项目概述 互联网产品形形色色,有产品导向的,有营销导向的,也有技术导向的,但是 以技术见长的互联网产品比例相对小些。搜索引擎是目前互联网产品中最具技 术含量的产品,如果不是唯一,至少也是其中之一。 经过十几年的发展
  3. 所属分类:C/C++

    • 发布日期:2018-07-04
    • 文件大小:4194304
    • 提供者:qq15690515
  1. web基础蜘蛛网页文章采集器 v3.2.zip

  2. web基础蜘蛛网页文章采集器,英文名称Fast_Spider,属于蜘蛛爬虫类程序,用于从指定网站采集海量精华文章,将直接丢弃其中的垃圾网页信息,仅保存具备阅读价值和浏览价值的精华文章,自动执行HTM-TXT转换。本软件为绿色软件解压即可使用。 web基础蜘蛛网页文章采集器特点如下: (1)本软件采用北大天网MD5指纹排重算法,对于相似相同的网页信息,不再重复保存。 (2)采集信息含义:[[HT]]表示网页标题,[[HA]]表示文章标题,[[HC]]表示10个权重关键字,[[UR]]表示网页
  3. 所属分类:其它

    • 发布日期:2019-07-15
    • 文件大小:5242880
    • 提供者:weixin_39841848
  1. \"Tag-TextRank:一种基于Tag的网页关键词抽取方法\"分享总结

  2. NULL 博文链接:https://snv.iteye.com/blog/1886969在 Wikipedia中的实体,并且算法的复杂度很高。另外,国内一些学者lm2也开展了关键 词提取的研究。实际上,从上面的工作,我们可以得到这样的基本结论:基本的R特征可 以找到部分关键词,而加入用户信息或者领域知识可以进一步提高关键词抽取效果。 本文利用Tag信息来提高关键词的抽取效果。近年来,Tag数据作为·种新的资源, 其挖掘和利用已经成为信息检索、社区发现等领域的研究热点。从数据质量上讲,Iag数 据
  3. 所属分类:其它

    • 发布日期:2019-04-20
    • 文件大小:1046528
    • 提供者:weixin_38669628
  1. OSD报告:此脚本创建一个网页以显示SCCM OSD报告-源码

  2. 2.0版的新功能 重做的脚本更加动态。 添加了TSAdvertisementID作为变量,以方便最终用户进行编辑。 新增了使用ConfigMgr模块来导入TS和驱动程序步骤以动态构建HTML的功能。 将驱动程序分组在一起,并将它们作为一个步骤放置(这使水平表格的尺寸减小了)。 添加了跳过步骤的处理(当TS步骤不满足条件时)。 将鼠标悬停在灰色复选标记上可以看到更多详细信息。 现在,结果以最新的计算机排在最前面。 OSD报告 该脚本将在ConfigMgr数据库中查询任务序列状态消息。 解析输出并将
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:4194304
    • 提供者:weixin_42128537
« 12 3 »