文件名称:
搜索引擎的日志分析:方法、技术和应用_单松巍_北京大学硕士论文
开发工具:
文件大小: 2mb
下载次数: 0
上传时间: 2009-07-08
详细说明: 搜索引擎技术的出现帮助为web用户在浩如烟海的WWW上快速发现、定位信息带来了福音,目前搜索引擎已经是WWW上除Email之外使用最多的服务。目前搜索引擎面临的主要困难是检索质量不高,用户满意度不高。 本文试图通过分析“天网”搜索引擎的日志来得到用户访问“天网”系统的一般性规律,并从分析结果出发改造搜索引擎。为此,我们安排了两组实验,一组实验是试探性的,我们统计了用户访问“天网”系统的查询、翻页、点击行为,希望从中得到一些规律;另一组实验是针对性的,我们针对cache系统设计了一组实验,希望能验证cache系统的必 要性和可行性,并对cache系统的构成、组织进行模拟测试。通过这些工作,我们发现了用户访问“天网”系统的一些规律,发现了用户的查询词序列、点击url序列、以及索引端的单词访问序列都具有较强的集中性、长期稳定性以及短期相关性,它们从不同角度说明了访问局部性,这个计算机科学中经常讨论的核心现象之一,在海量网络信息环境下的具体体现。 从实验分析结果出发,论文还报告了对“天网”系统三个方面的改进:新增“位置相关性”模块来提高查询质量;改造Cache系统来提高响应速度;增加自动目录导航服务来引导用户,从而全面提高了天网系统的能力和质量。 ...展开收缩
(系统自动生成,下载前可以参看下载内容)
下载文件列表
相关说明
- 本站资源为会员上传分享交流与学习,如有侵犯您的权益,请联系我们删除.
- 本站是交换下载平台,提供交流渠道,下载内容来自于网络,除下载问题外,其它问题请自行百度。
- 本站已设置防盗链,请勿用迅雷、QQ旋风等多线程下载软件下载资源,下载后用WinRAR最新版进行解压.
- 如果您发现内容无法下载,请稍后再次尝试;或者到消费记录里找到下载记录反馈给我们.
- 下载后发现下载的内容跟说明不相乎,请到消费记录里找到下载记录反馈给我们,经确认后退回积分.
- 如下载前有疑问,可以通过点击"提供者"的名字,查看对方的联系方式,联系对方咨询.