您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 基于网页DOM树节点路径相似度的正文抽取

  2. 由于人工抽取网页信息效率低、成本高,因此根据对大量网页结构的观察,提出基于网页文档对象模型DOM树节点路径相似度的正文抽取方法。依据同网站下的网页结构相同的特点去除网页噪声得到网页的主题内容,然后结合正文节点在DOM树中的路径的相似度抽取正文。通过对不同类型的中文新闻网站上的1 000个网页进行实验,结果表明该方法对于97.6%的网页都能够去除大部分噪声并保持正文内容的完整性,正文抽取结果有93.30%的准确率和95.59%的召回率。所提算法对不同类型的网页都有较好的适应性。
  3. 所属分类:其它

    • 发布日期:2020-10-16
    • 文件大小:202752
    • 提供者:weixin_38673694