开发工具:
文件大小: 1mb
下载次数: 0
上传时间: 2019-03-23
详细说明:
NULL
博文链接:https://qidaoxp.iteye.com/blog/1072832入门学习
概述
文件系统语法
文件系统设计
系统的可用性
文件系统工作架构
应用
修改源码
插件机制
什么是
使用的好处
工作原理
编
接口
使用
使用
的应用前景
附录一
的相关网站
附录二参考文献
北京邮电大学一李阳
入门学习
简介
什么是
是一个开源的、实现的搜索引擎。它提供了我们运行自己的搜
索引擎所需的全部工具。
研究
的原因
可能有的朋友会有疑问我们有
有百度为何还需要建立自己的搜索
引擎呢?这里我列出点原因:
透明度
是开放源代码的,因此任何人都可以查看他的排序算法
是如何工作的。商业的搜索引擎排序算法都是保密的,我们无法知道为
什么搜索出来的排序结果是如何算出来的。更进一步,一些搜索引擎允
许竞价排名,比如白度,这样的索引结果并不是和站点内容相关的。因
此
对学术搜索和政府类站点的搜索来说,是个好选择,因为
个公平的排序结果是非常重要的。
对搜索引擎的理解:我们并没有
的源代码,因此学习搜索引擎
是个不错的选择。了解一个大型分布式的搜索引擎如何工作是
件让人很受益的事情。在写的过程屮,从学院派和工业派借鉴了
很多知识:比如,
的核心部分目前已经被重新用
实
现了。
是一个分布式的处理模型,最先是从
实验
室提出来的。并且
也吸引了很多研究者,他们非常乐丁尝试新
的搜索算法,因为对来说,这是非常容易实现扩展的。
扩展性:你是不是不宮欢其他的搜索引擎展现结果的方式呢?那就用
写你自己的搜索引擎吧
是非常灵活的:他可以被很好
的客户订制并集成到你的应用程序中,使川
的插件机制,
可以作为一个搜索不同信息载体的搜索平台。当然,最简单的就是集成
到你的站点,为你的用户提供搜索服务。
的目标
致力于让每个人能很容易,同时花费很少就可以配置世界一流的
Web搜索引擎.为了完成这一宏伟的目标,
必须能够做到
每个月取几十亿网页
北京邮电大学一李阳
入门学习
为这些网页维护一个索引
对索引文件进行每秒上千次的搜索
提供高质量的搜索结果
●以最小的成木运作
这将是一个巨大的挑战
简单的说
不是完整的应用程序,而是一个用于实现全文检索的软件库
是一个应用程序,可以以
为基础实现搜索引擎应用。
为
提供了文本索引和搜索的。一个常见的问题是;我应
该使用
还是?最简单的回答是:如果你不需要抓取数据的话,应该
使用
常见的应用场合是:你有数据源,需要为这些数据提供一个搜索页
面。在这种情况下,最好的方式是直接从数据库屮取出数据并用
索引
北京邮电大学一李阳
入门学习
的安装与配置
√安装环境
所安装软件
◇我将软件默认实装在主文件夹下
√下载网址
的安装与配置
问题的由来
默认是使用作为虚拟机的,是用
的编译器
但是很多情况下,我们希望使川的
的下载与安装
下毂包
http://java.suncom
jak-6ul-linux-1586 bin
包这是
的自解压执行
脚本,里面已经包含安装压缩包。
到的下载目录,执行命令:
[rootolocalhost ]#sh jak-6ul-linux-1586 bi
默认安装在
下,但版本不同,安装路径可能不同。
的配置
取代
■创建快捷方式以取代
[rootolocalhost N]#cd /usr/bin
[rootalocalhost -]#ln -s -f /usr/java/jakl.6.0 01/jre/bin/java
[localhost ]#ln -s -f /usr/java/jdk1.6.0 01/bin/javac
北京邮电大学一李阳
入门学习
命令的参数表示建立符号链接,参数表示强制覆盖原来已经存
在的静态链接文件
注意:这个步骤并没有把从您的电脑中彻底删除。您仍然可以使
用
命令找到它,并在需要的时候使用它。
配置环境变量
编辑
文件
[localhost ]#vi /. bashrc
在
文件最后加上下面四行
export JAVA HOME=/usr/jdk/jdk16001
export JAVA BIN-/usr/jdk/jak1.6.0 01/bin
expor七PATH= SPATH:与 JAVA HOME/bin
export CLASSPATH=: SJAVA HOME/lib/at. jar: SJAVA HOME/lib/tools.jar
配置浏览器插件
转到
安装目录的
日录下建立一个到的符号链接
以我的为例
版本为
rootolocalhost - ]#cd /usr/lib/mozilla-1712/plugins
[rootolocalhost]#ln -s
/usr/java/jdk1.6.0 01/ire/plugin/i386/ns7/libjavaplugin ojiso
控制台的调用
[rootlocalhost -]#/usr/java/jak1
o1/ bin/controlPanel
测试
■可以到的中文网站上进行测试,以验证你的版本
http://www.iava.com/zhCn/Download/help/testvm.xml
如果未通过以上测试,或者调用控制台时出现以下错误
Exception in thread "main"java. lang. Unsatisfiealinkerror
/usr/java/jdk1.6.0 01 /]re/lib/i386/libdeploy so: libstdc++s0.5
cannot open shared object file: No s uch file or directory
则进行此步,否则跳过此步
■下载
包
http://er2.rpmfind.net
运行安装
Lroctolocalhost- ]#rpm -ivh compat-libstdc++-33-323-55fc51386. rpm
■再次测试,应该成功了吧
验证版本
Rootlocalhost ]# java -version
北京邮电大学一李阳
入门学习
ava version"1.6.001〃
Java(TM) SE Runtime Environment (build 1.6.0 01-b06)
Java HotSpot (TM) Client vM (build 1.6.0 01-b06, mixed mode, sharing)
的安装与配置
下载
http://lucene.apacheorg/nutch
解压
Rootlocalhost ]#tar zxvf nutch-0.8.1. tar. gz
更改文件夹名称方便以后执行
[rootlocalhost-]#mv nutch-0.8.1 nutch
命令既可以移动文件文件夹,也可用于改名
测试
命令
[rootlocalhost nutch]# bin/nutch
Usage: nutch COMMAND
Where command i。neof
crawl
one-step crawler for intranet
readdb
read dump crawl ab
merged
merge crawldb-s, with optional filtering
readlinkab
read dump link db
1n]≈ct
nect new urls into the database
generate
generate new segments to fetch
fetch
fetch
gment s pages
parse
parse a segment s pages
reads
na/ du
t data
mergesegs
merge several segments, with optional filtering
nd slicing
updatedb
update crawl ah from segments after fetching
interlinks
create a linkdb from parsed segments
mergelinkab
merge linkdb-s, with optional filtering
ind⊙x
run the indexer on parsed segments and linkab
merge
merge several segment indexes
dedup
emove duplicates from a set of segment indexes
plugin
load a plugin and run one of its classes main()
erver
run a search server
CLASSNAME
run the class named classname
Most commands print help when invoked w/o parameters
的安装与配置
下载
北京邮电大学一李阳
入门学习
http://tomcat.apache.org
解压
ootlocalhost]#tar zxvf jakarta-tomcat-5028.tar. gz
更改文件夹名称
Trootolocalhost-]#mv jakarta-tomcat-5028. tar.gz tomcat
配置将
自带的文件拷贝到
的
文件夹下
Trootolocalhost-]#ca tomcat/webapps
[roOt1oca1host~]#rm-rfR○OT大
[rootlocalhost webapps]#cp -/nutch/nutch*war ROoT.war
Rootlocalhost webapps]#jar xvf root.war
启动
[rootolocalhost webapps]#./ bin/catalina. sh start
相应的关闭
的命令为
[localhost webapps]#./bin/catalina. sh stop
查看结果在浏览器中输入
远程査看需要将
换成相应的
⊥简个见问题开发捐赠
搜索
帮助
HIGHTS RESERLE
moIs
xcept where otherwISe note d
-his site is licensed under a creatie Commons lic
I en l es l f l fr i hu l ip i ms inl lEt t1 lzh
北京邮电大学一李阳
入门学习
初体验
的爬虫有两种方式
爬行企业内部网
。针对少数网站进行,用
命令。
爬行整个互联网。使用低层的
和
命令,
具有更强的可控制性。
爬行企业内部网
配置
[rootlocalhost - ]#cd nutch
■增加要抓取的臾面以
为例
[rootlocalhost nutch#mkdir urls
[rootolocalhostnutch]#echohttp://www.163.com/>>urls/153
■或者用编辑器也可以,在文件中输入
,保存即可
■编辑
文件,设定要抓取的网址信息。
[rootolocalhost nutch]#vi conf/crawl-urlfiltertxt
修改
为
accept hosts in MY DOMAIN NAME
+http://([a-z0-9]*\.)*163.com/
◇编辑
文件,增加代理的属性,并编辑相应的属性值
cname>http.agentname
http'useR-agentrequestheaderMustNotbeempty
please set this to a single word uniquely related to your
organization
NOTE: You should also check ather related properties
httprobots.agents
httpagentdescription
httpagenturl
httpagentemail
http.agent.version
and set their values appropriately
/property
property>
北京邮电大学一李阳
(系统自动生成,下载前可以参看下载内容)
下载文件列表
相关说明
- 本站资源为会员上传分享交流与学习,如有侵犯您的权益,请联系我们删除.
- 本站是交换下载平台,提供交流渠道,下载内容来自于网络,除下载问题外,其它问题请自行百度。
- 本站已设置防盗链,请勿用迅雷、QQ旋风等多线程下载软件下载资源,下载后用WinRAR最新版进行解压.
- 如果您发现内容无法下载,请稍后再次尝试;或者到消费记录里找到下载记录反馈给我们.
- 下载后发现下载的内容跟说明不相乎,请到消费记录里找到下载记录反馈给我们,经确认后退回积分.
- 如下载前有疑问,可以通过点击"提供者"的名字,查看对方的联系方式,联系对方咨询.