开发工具:
文件大小: 60kb
下载次数: 0
上传时间: 2008-05-28
详细说明: 演示地址如下:http://202.110.133.114/tsegment/webanalyer.aspx
属于早期作品,采用规则方法提出非正文内容,则认为留下的内容为正文。仅作简单技术演示之用,感谢TT同学提供的空间并帮我写的演示程序。
该功能已封装成.NET组件,可提供程序直接调用,近期提供下载。
可用于大家收集语料时候网页内容提取之用。
如对此组件有兴趣,请直接邮件至我MSN信箱,我正考虑采用新算法完善并编写多个语言版本,在这里先统计下人数
看看有没开发商业版本的必要,对于商业版本将采用块识别标记的方式只对一段标签或一个DOM节点进行标识,而不负责提取正文,由用户自行控制过滤或提取哪些类型数据.
目前能想到可能会用到的标识类型:导航条 广告 正文 正文标题 相关文章 版权信息 评论 如大家还有其他想到的类型,请告之
无法处理导航页,提取正文时也不考虑图片类文章及文章中的配图。
该组件内 部算法主要应用了规则模型抽取,所有规则基本使用正则表达式实现,具体正则可参考我的BLOG上《正文抽取正则》以及《聊聊网页正文抽取》内容。
http://www.likeshow.net/article.asp?id=60
http://www.likeshow.net/article.asp?id=55
...展开收缩
(系统自动生成,下载前可以参看下载内容)
下载文件列表
相关说明
- 本站资源为会员上传分享交流与学习,如有侵犯您的权益,请联系我们删除.
- 本站是交换下载平台,提供交流渠道,下载内容来自于网络,除下载问题外,其它问题请自行百度。
- 本站已设置防盗链,请勿用迅雷、QQ旋风等多线程下载软件下载资源,下载后用WinRAR最新版进行解压.
- 如果您发现内容无法下载,请稍后再次尝试;或者到消费记录里找到下载记录反馈给我们.
- 下载后发现下载的内容跟说明不相乎,请到消费记录里找到下载记录反馈给我们,经确认后退回积分.
- 如下载前有疑问,可以通过点击"提供者"的名字,查看对方的联系方式,联系对方咨询.