动态网页的信息抽取方法动态网页的信息抽取W曲信息抽取将W|eb中的数据抽取出来并表示为结构化的形式

文件名称: 动态网页的信息抽取方法

所属分类: 网络基础

开发工具:

文件大小: 3mb

下载次数: 0

上传时间: 2018-03-19

提供者: qq_23******

下载 (3mb)

不能下载？报告错误

详细说明：动态网页的信息抽取W曲信息抽取将W|eb中的数据抽取出来并表示为结构化的形式。动态网页是通过程序动态生成的页面。据统计，目前Web上的页面主要是以动态网页的形式存在。因此，研究动态网页的信息抽取方法，具有较大的实用价值。本文将动态网页分为记录级和页面级两类，主要工作包括：(1)针对记录级动态网页，提出基于相似记录项归纳(Similar Records Induction，s对)的信息抽取方法。该方法采用编辑距离算法和树排列算法归纳产生记录项的包装器树，并为抽取到的信息手工标注标签。(2)针对页面级动态网页，提出基于相似页面归纳(Similar Pages Induction,SPI)的信息抽取方法。该方法首先清洗样本网页集，然后通过树排列算法，归纳产生页面的包装器树，并选择模板字符串为相邻信息自动标注标签。(3) 针对记录级动态网页的标签自动获取问题，提出基于隐马尔科夫模型(Hidden Markov Model。HMM) 的记录项字段识别和抽取方法。该方法将记录项作为字段值的序列，并采用HM_／VI对字段值的标签进行分类标注。

(系统自动生成,下载前可以参看下载内容)