nutch介绍信息 java实现的开源搜索引擎nutch 主要类分析：一、org.apache.n

文件名称: nutch介绍信息

所属分类: 互联网

开发工具:

文件大小: 56kb

下载次数: 0

上传时间: 2011-12-04

提供者: flqqof******

下载 (56kb)

不能下载？报告错误

详细说明： java实现的开源搜索引擎nutch 主要类分析：一、org.apache.nutch.crawl.Injector: 1，注入url.txt 2，url标准化 3，拦截url，进行正则校验（regex-urlfilter.txt） 4，对符URL标准的url进行map对构造，在构造过程中给CrawlDatum初始化得分，分数可影响url host的搜索排序，和采集优先级！ 5，reduce只做一件事，判断url是不是在crawldb中已经存在，如果存在则直接读取原来CrawlDatum，如果是新host，则把相应状态存储到里边（STATUS_DB_UNFETCHED（状态意思为没有采集过））二、org.apache.nutch.crawl.Generator: 1，过滤不及格url （使用url过滤插件） 2，检测URL是否在有效更新时间里 3，获取URL metaData，metaData记录了url上次更新时间 4，对url进行打分 5，将url载入相应任务组（以host为分组） 6，计算url hash 值 7，收集url, 直至到达 topN 指定量三、org.apache.nutch.crawl.Fetcher: 1，从segment中读取，将它放入相 ...展开收缩

(系统自动生成,下载前可以参看下载内容)