W4F(Wysiwyg Web Wrapper Factory)是一个用来生成网页包装器的Java工具箱。包装器生成过程由三个独立层:获取层、抽取层和匹配层组成。获取层通过HTTP协议下载页面、清洗,然后按照文档对象模型(DOM)转化为一棵HTML解析树。抽取层应用抽取规则从解析树中抽取信息,保存成W4F的内部格式嵌 套字符串列表(NSL)。匹配层按照匹配规则将NSL结构输出到上层应用
从深度学习的角度出发,提出了一种基于Attention 的双向长短时记忆网络(bidirectional long short-term memory,BLSTM)与条件随机场(conditional random fields,CRF)相结合的领域术语抽取模型(BLSTM_Attention_CRF 模型),并使用基于词典与规则相结合的方法对结果进行校正,准确率可达到 86%以上,该方法切实可行。