文件名称:
一个大规模、高性能的搜索引擎系统—北京大学硕士研究生学位论文
开发工具:
文件大小: 1mb
下载次数: 1
上传时间: 2009-07-08
详细说明: 本文首先回顾了WWW的起源和发展。面对极其大量的信息,人们通常依靠搜索引擎来为他们在WWW上进行导航,这给搜索引擎技术带来了巨大的挑战。自1994年问世以来,搜索引擎的发展经历了四代。我们对每一代搜索引擎及其特色进行了简要的陈述。 搜索引擎是一个集多种技术于一体的综合性系统。在本文的第二章,我们就搜索引擎涉及到的某些核心背景技术,如搜索技术、IR技术、超文本链分析技术、用户行为分析技术,进行了讨论,并说明了这些技术对搜索引擎发展的影响和作用。 “天网”是国家“九五”攻关项目中的一个子专题。在借鉴和参考大量国内外 相关研究的同时,根据中国WWW的特点,我们设计了一个大规模、高性能的搜索引擎系统。在第三章,我们根据WWW的特点和搜索引擎的功能,根据图论、集合论及关系模型构建了“天网”搜索引擎的理论模型,并且以理论模型为出发点,设计了整个系统的体系结构。 在文章的主体部分,我们以搜索引擎中数据流程为主线,描述了搜索引擎的几个子系统:搜集子系统、分析子系统、索引子系统、检索子系统以及用户界面和日志挖掘子系统。在这些章节中,特别强调“天网”所采用的相关技术和关键算法:分布式并行搜集技术、启发式搜集策略、镜像消除技术、中英文特征项提取技术、高效索引技术、词典更新技术、超链分析技术、快速检索技术、相关度评价策略、Hash排序算法、Cache策略、中文词汇学习技术和用户行为分析技术。 最后,我们简要的介绍了系统的实现和性能,并对“天网”系统提出了一些今后的发展设想。 ...展开收缩
(系统自动生成,下载前可以参看下载内容)
下载文件列表
相关说明
- 本站资源为会员上传分享交流与学习,如有侵犯您的权益,请联系我们删除.
- 本站是交换下载平台,提供交流渠道,下载内容来自于网络,除下载问题外,其它问题请自行百度。
- 本站已设置防盗链,请勿用迅雷、QQ旋风等多线程下载软件下载资源,下载后用WinRAR最新版进行解压.
- 如果您发现内容无法下载,请稍后再次尝试;或者到消费记录里找到下载记录反馈给我们.
- 下载后发现下载的内容跟说明不相乎,请到消费记录里找到下载记录反馈给我们,经确认后退回积分.
- 如下载前有疑问,可以通过点击"提供者"的名字,查看对方的联系方式,联系对方咨询.