大规模网页模块识别与信息提取系统设计与实现本科生论文。本文在已有的基于Dom-Tree和启发式规则

文件名称: 大规模网页模块识别与信息提取系统设计与实现

所属分类: 其它

开发工具:

文件大小: 1mb

下载次数: 0

上传时间: 2009-11-30

提供者: zjj7****

下载 (1mb)

不能下载？报告错误

详细说明：本科生论文。本文在已有的基于Dom-Tree和启发式规则的网页信息提取算法的基础上，通过为所有符合W3C规范的Html标签分类，逐个分析各Html标签所包含的语义信息，细化规则设置，实现了一种自底向上的无信息遗漏的网页分块算法，并在此基础上，利用统计方法得到详细的概率分布数据，实现了文本相似度比较和Bayes后验概率估计两种网页主题内容信息块识别算法，并将其求交，提高了主题内容信息块的识别精确度。上述算法已集成到天网搜索引擎平台的网页预处理模块中，并且在SEWM 2008会议中，以这套算法为框架，组织了主题型网页识别和网页主题内容信息块提取两个中文Web信息检索评测项目。在这套算法的基础上，基于天网文件系统与Map-Reduce计算平台，实现了分布式的网页块级别PageRank算法，命名为QuarkRank算法。实际检验表明，该套算法具有很好的适应性与可扩展性，并达到了很高的精度和召回率。

(系统自动生成,下载前可以参看下载内容)