您好,欢迎光临本网站![请登录][注册会员]  
文件名称: nutch入门.pdf
  所属分类: 其它
  开发工具:
  文件大小: 1mb
  下载次数: 0
  上传时间: 2019-03-23
  提 供 者: weixin_********
 详细说明:NULL 博文链接:https://qidaoxp.iteye.com/blog/1072832入门学习 概述 文件系统语法 文件系统设计 系统的可用性 文件系统工作架构 应用 修改源码 插件机制 什么是 使用的好处 工作原理 编 接口 使用 使用 的应用前景 附录一 的相关网站 附录二参考文献 北京邮电大学一李阳 入门学习 简介 什么是 是一个开源的、实现的搜索引擎。它提供了我们运行自己的搜 索引擎所需的全部工具。 研究 的原因 可能有的朋友会有疑问我们有 有百度为何还需要建立自己的搜索 引擎呢?这里我列出点原因: 透明度 是开放源代码的,因此任何人都可以查看他的排序算法 是如何工作的。商业的搜索引擎排序算法都是保密的,我们无法知道为 什么搜索出来的排序结果是如何算出来的。更进一步,一些搜索引擎允 许竞价排名,比如白度,这样的索引结果并不是和站点内容相关的。因 此 对学术搜索和政府类站点的搜索来说,是个好选择,因为 个公平的排序结果是非常重要的。 对搜索引擎的理解:我们并没有 的源代码,因此学习搜索引擎 是个不错的选择。了解一个大型分布式的搜索引擎如何工作是 件让人很受益的事情。在写的过程屮,从学院派和工业派借鉴了 很多知识:比如, 的核心部分目前已经被重新用 实 现了。 是一个分布式的处理模型,最先是从 实验 室提出来的。并且 也吸引了很多研究者,他们非常乐丁尝试新 的搜索算法,因为对来说,这是非常容易实现扩展的。 扩展性:你是不是不宮欢其他的搜索引擎展现结果的方式呢?那就用 写你自己的搜索引擎吧 是非常灵活的:他可以被很好 的客户订制并集成到你的应用程序中,使川 的插件机制, 可以作为一个搜索不同信息载体的搜索平台。当然,最简单的就是集成 到你的站点,为你的用户提供搜索服务。 的目标 致力于让每个人能很容易,同时花费很少就可以配置世界一流的 Web搜索引擎.为了完成这一宏伟的目标, 必须能够做到 每个月取几十亿网页 北京邮电大学一李阳 入门学习 为这些网页维护一个索引 对索引文件进行每秒上千次的搜索 提供高质量的搜索结果 ●以最小的成木运作 这将是一个巨大的挑战 简单的说 不是完整的应用程序,而是一个用于实现全文检索的软件库 是一个应用程序,可以以 为基础实现搜索引擎应用。 为 提供了文本索引和搜索的。一个常见的问题是;我应 该使用 还是?最简单的回答是:如果你不需要抓取数据的话,应该 使用 常见的应用场合是:你有数据源,需要为这些数据提供一个搜索页 面。在这种情况下,最好的方式是直接从数据库屮取出数据并用 索引 北京邮电大学一李阳 入门学习 的安装与配置 √安装环境 所安装软件 ◇我将软件默认实装在主文件夹下 √下载网址 的安装与配置 问题的由来 默认是使用作为虚拟机的,是用 的编译器 但是很多情况下,我们希望使川的 的下载与安装 下毂包 http://java.suncom jak-6ul-linux-1586 bin 包这是 的自解压执行 脚本,里面已经包含安装压缩包。 到的下载目录,执行命令: [rootolocalhost ]#sh jak-6ul-linux-1586 bi 默认安装在 下,但版本不同,安装路径可能不同。 的配置 取代 ■创建快捷方式以取代 [rootolocalhost N]#cd /usr/bin [rootalocalhost -]#ln -s -f /usr/java/jakl.6.0 01/jre/bin/java [localhost ]#ln -s -f /usr/java/jdk1.6.0 01/bin/javac 北京邮电大学一李阳 入门学习 命令的参数表示建立符号链接,参数表示强制覆盖原来已经存 在的静态链接文件 注意:这个步骤并没有把从您的电脑中彻底删除。您仍然可以使 用 命令找到它,并在需要的时候使用它。 配置环境变量 编辑 文件 [localhost ]#vi /. bashrc 在 文件最后加上下面四行 export JAVA HOME=/usr/jdk/jdk16001 export JAVA BIN-/usr/jdk/jak1.6.0 01/bin expor七PATH= SPATH:与 JAVA HOME/bin export CLASSPATH=: SJAVA HOME/lib/at. jar: SJAVA HOME/lib/tools.jar 配置浏览器插件 转到 安装目录的 日录下建立一个到的符号链接 以我的为例 版本为 rootolocalhost - ]#cd /usr/lib/mozilla-1712/plugins [rootolocalhost]#ln -s /usr/java/jdk1.6.0 01/ire/plugin/i386/ns7/libjavaplugin ojiso 控制台的调用 [rootlocalhost -]#/usr/java/jak1 o1/ bin/controlPanel 测试 ■可以到的中文网站上进行测试,以验证你的版本 http://www.iava.com/zhCn/Download/help/testvm.xml 如果未通过以上测试,或者调用控制台时出现以下错误 Exception in thread "main"java. lang. Unsatisfiealinkerror /usr/java/jdk1.6.0 01 /]re/lib/i386/libdeploy so: libstdc++s0.5 cannot open shared object file: No s uch file or directory 则进行此步,否则跳过此步 ■下载 包 http://er2.rpmfind.net 运行安装 Lroctolocalhost- ]#rpm -ivh compat-libstdc++-33-323-55fc51386. rpm ■再次测试,应该成功了吧 验证版本 Rootlocalhost ]# java -version 北京邮电大学一李阳 入门学习 ava version"1.6.001〃 Java(TM) SE Runtime Environment (build 1.6.0 01-b06) Java HotSpot (TM) Client vM (build 1.6.0 01-b06, mixed mode, sharing) 的安装与配置 下载 http://lucene.apacheorg/nutch 解压 Rootlocalhost ]#tar zxvf nutch-0.8.1. tar. gz 更改文件夹名称方便以后执行 [rootlocalhost-]#mv nutch-0.8.1 nutch 命令既可以移动文件文件夹,也可用于改名 测试 命令 [rootlocalhost nutch]# bin/nutch Usage: nutch COMMAND Where command i。neof crawl one-step crawler for intranet readdb read dump crawl ab merged merge crawldb-s, with optional filtering readlinkab read dump link db 1n]≈ct nect new urls into the database generate generate new segments to fetch fetch fetch gment s pages parse parse a segment s pages reads na/ du t data mergesegs merge several segments, with optional filtering nd slicing updatedb update crawl ah from segments after fetching interlinks create a linkdb from parsed segments mergelinkab merge linkdb-s, with optional filtering ind⊙x run the indexer on parsed segments and linkab merge merge several segment indexes dedup emove duplicates from a set of segment indexes plugin load a plugin and run one of its classes main() erver run a search server CLASSNAME run the class named classname Most commands print help when invoked w/o parameters 的安装与配置 下载 北京邮电大学一李阳 入门学习 http://tomcat.apache.org 解压 ootlocalhost]#tar zxvf jakarta-tomcat-5028.tar. gz 更改文件夹名称 Trootolocalhost-]#mv jakarta-tomcat-5028. tar.gz tomcat 配置将 自带的文件拷贝到 的 文件夹下 Trootolocalhost-]#ca tomcat/webapps [roOt1oca1host~]#rm-rfR○OT大 [rootlocalhost webapps]#cp -/nutch/nutch*war ROoT.war Rootlocalhost webapps]#jar xvf root.war 启动 [rootolocalhost webapps]#./ bin/catalina. sh start 相应的关闭 的命令为 [localhost webapps]#./bin/catalina. sh stop 查看结果在浏览器中输入 远程査看需要将 换成相应的 ⊥简个见问题开发捐赠 搜索 帮助 HIGHTS RESERLE moIs xcept where otherwISe note d -his site is licensed under a creatie Commons lic I en l es l f l fr i hu l ip i ms inl lEt t1 lzh 北京邮电大学一李阳 入门学习 初体验 的爬虫有两种方式 爬行企业内部网 。针对少数网站进行,用 命令。 爬行整个互联网。使用低层的 和 命令, 具有更强的可控制性。 爬行企业内部网 配置 [rootlocalhost - ]#cd nutch ■增加要抓取的臾面以 为例 [rootlocalhost nutch#mkdir urls [rootolocalhostnutch]#echohttp://www.163.com/>>urls/153 ■或者用编辑器也可以,在文件中输入 ,保存即可 ■编辑 文件,设定要抓取的网址信息。 [rootolocalhost nutch]#vi conf/crawl-urlfiltertxt 修改 为 accept hosts in MY DOMAIN NAME +http://([a-z0-9]*\.)*163.com/ ◇编辑 文件,增加代理的属性,并编辑相应的属性值 cname>http.agentname http'useR-agentrequestheaderMustNotbeempty please set this to a single word uniquely related to your organization NOTE: You should also check ather related properties httprobots.agents httpagentdescription httpagenturl httpagentemail http.agent.version and set their values appropriately /property property> 北京邮电大学一李阳
(系统自动生成,下载前可以参看下载内容)

下载文件列表

相关说明

  • 本站资源为会员上传分享交流与学习,如有侵犯您的权益,请联系我们删除.
  • 本站是交换下载平台,提供交流渠道,下载内容来自于网络,除下载问题外,其它问题请自行百度
  • 本站已设置防盗链,请勿用迅雷、QQ旋风等多线程下载软件下载资源,下载后用WinRAR最新版进行解压.
  • 如果您发现内容无法下载,请稍后再次尝试;或者到消费记录里找到下载记录反馈给我们.
  • 下载后发现下载的内容跟说明不相乎,请到消费记录里找到下载记录反馈给我们,经确认后退回积分.
  • 如下载前有疑问,可以通过点击"提供者"的名字,查看对方的联系方式,联系对方咨询.
 相关搜索: nutch入门.pdf
 输入关键字,在本站1000多万海量源码库中尽情搜索: