您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 基于DIV的主题抽取

  2. 随着CSS+DIV布局方式逐渐成为网页结构布局的主流,对此类网页进行高效的主题信息抽取已成为 专业搜索引擎的迫切任务之一。提出一种基于DIV标签树的网页主题信息抽取方法,首先根据DIV 标签把HTML文档解析成DIV森林,然后过滤掉DW标签树中的噪声结点并且建立STU-DIV模型 树,最后通过主题相关度分析和剪枝算法,剪掉与主题信息无关的DIV标签树。通过对多个新闻网站 的网页进行分析处理,实验证明此方法能够有效地抽取新闻网页的主题信息。
  3. 所属分类:其它

    • 发布日期:2010-12-30
    • 文件大小:373760
    • 提供者:heyun51
  1. 一种高效的新闻网页噪声过滤方法

  2. 网页噪声过滤是网页预处理中关键的一步,其处理结果对后续处理的效率和准确性都有很大的影响。本文基于文本块字符数的统计规律,在总结了新闻网页特点的基础上设计了一种高效的新闻网页噪声过滤算法。该算法不仅完成了新闻正文的提取,也实现了新闻标题和报道时间的提取。试验证明,该算法有很高的处理速度,同时其提取的准确率也有了进一步的提高。
  3. 所属分类:其它

    • 发布日期:2020-10-20
    • 文件大小:232448
    • 提供者:weixin_38524246