搜索资源 - 基于统计的网页正文信息抽取方法

搜索资源列表

基于统计的网页正文信息抽取方法
为了把自然语言处理技术有效的运用到网页文档中,本文提出了一种依靠统计信息,从中文新闻类网页中抽取正文内容的方法。该方法先根据网页中的HTML 标记把网页表示成一棵树,然后利用树中每个结点包含的中文字符数从中选择包含正文信息的结点。该方法克服了传统的网页内容抽取方法需要针对不同的数据源构造不同的包装器的缺点,具有简单、准确的特点,试验表明该方法的抽取准确率可以达到95 %以上。采用该方法实现的网页文本抽取工具目前为一个面向旅游领域的问答系统提供语料支持,很好的满足了问答系统的需求。
所属分类：旅游
- 发布日期：2009-06-12
- 文件大小：43008
- 提供者：hui22021616

基于规则模型的通用网页正文提取组件
演示地址如下：http://202.110.133.114/tsegment/webanalyer.aspx属于早期作品，采用规则方法提出非正文内容，则认为留下的内容为正文。仅作简单技术演示之用，感谢TT同学提供的空间并帮我写的演示程序。该功能已封装成.NET组件，可提供程序直接调用，近期提供下载。可用于大家收集语料时候网页内容提取之用。如对此组件有兴趣，请直接邮件至我MSN信箱，我正考虑采用新算法完善并编写多个语言版本，在这里先统计下人数看看有没开发商业版本的必要,对于商业版本将采用块识别标
所属分类：其它
- 发布日期：2008-05-28
- 文件大小：61440
- 提供者：yy8354

基于DOM树及行文本统计去噪的网页文本抽取技术
首先对网页源码文本统一编码转为UTF格式,然后把HTML网页文档转换为XML文档并解析为一棵DOM树。依据XML语言特点及噪声特征规则先对DOM树的噪声节点进行过滤删除,然后依据中文标点符号统计方法提取网页正文内容,并在此基础上利用行文本统计方法去除提取出的正文中存在的噪声信息,最后得到网页正文文本。对来自结构完全不同的主流与非主流的中英文新闻网站上的2 000篇网页进行实验,结果表明本文提出的方法具有较高的抽取准确率,并具有很好的通用性和实现简单的特点,适用于针对互联网中不同网站新闻文本信息的
所属分类：其它
- 发布日期：2021-03-01
- 文件大小：817152
- 提供者：weixin_38631197