爬虫搜索引擎实例有兴趣的朋友可以研究一哈关于爬虫技术一、什么是爬虫我这里所说的爬虫就是传统的搜

文件名称: 爬虫搜索引擎实例有兴趣的朋友可以研究一哈

所属分类: Web开发

开发工具:

文件大小: 9mb

下载次数: 0

上传时间: 2009-05-03

提供者: on***

下载 (9mb)

不能下载？报告错误

详细说明：关于爬虫技术一、什么是爬虫我这里所说的爬虫就是传统的搜索引擎，因为我们一度把YAHOO一类的目录也称作搜索引擎，所以这个概念已经有些混乱了。搜索引擎：也叫 "蜘蛛"或 "网络爬虫"，为了能产生web页的目录册，搜索引擎持续不停的访问internet上的web站点。由于他们是自动运行，并将大量的web页进行索引，搜索引擎也经常能够发现没有列在目录中的信息。 "搜索引擎"这个词一般都用来描述真正的搜索引擎和目录，其实他们并不是一回事，区别在于结果列表是如何编译生成的。二、搜索引擎与目录的区别 1）搜索引擎：搜索引擎，如HotBot，自动产生列表。搜索引擎在web上爬行，于是人们用它们来搜索。如果逆向改变你的web页，搜索引擎最后会发现这些变化。并会对你的列表方式产生变化。页面标题，正文即其他因素都会产生影响。 2）目录：一个类如Yahoo的目录是依靠人工列表。你向目录递交一份自己整个站点的描述，或者编辑为他们所看过的站点写一份。搜索只有在递交的描述中寻找回应。 3）混合搜索引擎：有一些搜索引擎拥有一个相关的目录，包含于一个搜索引擎的目录通常是幸运与质量的结合。三、搜索引擎的组成部分搜索引擎由三个主要元素。第一是spider，也叫crawler。 Spider访问一个web页，阅读并接着跟随此站点的其他连结。这就是有人指的站点被spidered或crawled.这个spider就会规律性的访问此站点，如每一两个月，来发现是否有变化。 Spider发现的一切都进入到搜索引擎的第二个部分：索引。有时索引叫做目录，像一本包含有spider发现的每一个web页的巨书，如果有一个web页发生变化，于是此书就会更新新的信息。有时对于新页面或spiders加到索引中的变化来说它要花一会时间。这样，一个web页也许已被 "发现" 但还没有被 "索引"。在它被索引以前----即加入到索引-----对那些用此搜索引擎搜索人来说是不可用的。搜索引擎软件是一个搜索引擎的第三个部分。这就是一种程序-----通过审查上百万记录在索引中的页面来找到搜索的回应并将其归类为他认为是最相关的。搜索引擎特征页：这一页的信息已经从每一个搜索引擎的帮助页里拿出来，并带有从文章、评论、书籍、独立的研究以及其他来自于各个不同的搜索引擎的信息。所有的搜索引擎都具有以上描述的基本部分，但这些部分是如何来协调的是有区别的。这就是为什么在不同的搜索引擎上进行同样的搜索经常会产上不同的结果。四、新趋势垂直引擎（vertigine：vertical engine）, 往往是目录和爬虫技术混合之后的再发展，更加注重科学的分类技术，以搜索的精确性和正确性为首要保证。 ...展开收缩

(系统自动生成,下载前可以参看下载内容)