您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 基于统计的网页正文信息抽取方法

  2. 为了把自然语言处理技术有效的运用到网页文档中,本文提出了一种依靠统计信息,从中文新闻类 网页中抽取正文内容的方法。该方法先根据网页中的HTML 标记把网页表示成一棵树,然后利用树中每个 结点包含的中文字符数从中选择包含正文信息的结点。该方法克服了传统的网页内容抽取方法需要针对不 同的数据源构造不同的包装器的缺点,具有简单、准确的特点,试验表明该方法的抽取准确率可以达到95 %以 上。采用该方法实现的网页文本抽取工具目前为一个面向旅游领域的问答系统提供语料支持,很好的满足了 问答系统的需求。
  3. 所属分类:旅游

    • 发布日期:2009-06-12
    • 文件大小:43008
    • 提供者:hui22021616
  1. 用于文本分类和文本聚类的特征抽取方法的研究

  2. 文本分类和聚类技术展开了研究,分析了特征抽取法在文本分类和文本聚类中应用的重要性,以及论证了为何要对文本进行特征抽取,最后分别阐述了用于文本分类和文本聚类的特征抽取方法。
  3. 所属分类:专业指导

    • 发布日期:2009-06-26
    • 文件大小:160768
    • 提供者:jacy0627
  1. IE信息抽取研究综述

  2. 信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。与信息检索不同,信息抽取直接从自然语言文本中抽取事实信息。过去十多年来,信息抽取逐步发展成为自然语言处理领域的一个重要分支,其独特的发展轨迹——通过系统化、大规模地定量评测推动研究向前发展,以及某些成功启示,如部分分析技术的有效性、快速NLP系统开发的必要性,都极大地推动了自然语言处理研究的发展,促进了NLP研究与应用的紧密结合。回顾信息抽取研究的历史,总结信息抽取研究的现状,将有助于这方面研究工作向前发展。
  3. 所属分类:专业指导

    • 发布日期:2009-07-04
    • 文件大小:186368
    • 提供者:anyupu
  1. MiniOcr抽取图片文字软件

  2. 可将图片上的文字解析为txt文本格式。适合界面设计人员使用。
  3. 所属分类:其它

    • 发布日期:2009-07-17
    • 文件大小:2097152
    • 提供者:newfishinthesea
  1. 中文文本分类中特征抽取方法的比较研究.pdf

  2. 本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率 DF、 信息增 益 IG、 互信息 MI、 χ2 分布 CHI四种不同的特征选取方法。采用支持向量机(SVM)和 KNN 两种不同的分类 器以考察不同抽取方法的有效性。实验结果表明 ,在英文文本分类中表现良好的特征抽取方法( IG、 MI和 CHI)在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因 ,并分析了可能的 矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特
  3. 所属分类:专业指导

    • 发布日期:2009-12-06
    • 文件大小:348160
    • 提供者:shiyoumaomao
  1. 文本挖掘中信息抽取研究综述

  2. 信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。与信息检索不同, 信息抽取直接从自然语言文本中抽取事实信息。过去十多年来,信息抽取逐步发展成为自然语言处理领域的一个重要分 支,其独特的发展轨迹——通过系统化、大规模地定量评测推动研究向前发展,以及某些成功启示,如部分分析技术的 有效性、快速NLP系统开发的必要性,都极大地推动了自然语言处理研究的发展,促进了NLP研究与应用的紧密结合。 回顾信息抽取研究的历史,总结信息抽取研究的现状,将有助于这方面研究工作向前发展。
  3. 所属分类:专业指导

    • 发布日期:2010-01-24
    • 文件大小:399360
    • 提供者:goodskyfly_1876
  1. 京东网站评论抽取的爬虫程序

  2. 对京东网站商品评论信息的抽取,输出后为xml格式文件。几乎可以抽取与评论相关的所有信息。用java写的爬虫程序。
  3. 所属分类:Java

    • 发布日期:2010-04-20
    • 文件大小:1048576
    • 提供者:jy_game_over
  1. 万金油正文抽取器体验版

  2. 基于最大文本块的正文提取方法,适用于新闻、博客,自动适应编号。
  3. 所属分类:专业指导

    • 发布日期:2010-06-11
    • 文件大小:1048576
    • 提供者:youkuchen521
  1. 万金油正文抽取器体验版

  2. 基于最大文本块的网页正文提取方法,适用于新闻、博客,自动适应网页编码,修改了第一版的bug
  3. 所属分类:专业指导

    • 发布日期:2010-06-11
    • 文件大小:1048576
    • 提供者:youkuchen521
  1. 中文文本分类中特征抽取方法的比较研究

  2. 本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增益IG、互信息MI、V2 分布CHI 四种不同的特征选取方法。采用支持向量机(SVM) 和KNN 两种不同的分类器以考察不同抽取方法的有效性。实验结果表明, 在英文文本分类中表现良好的特征抽取方法( IG、MI 和CHI) 在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因, 并分析了可能的矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特征抽取方法的有效性
  3. 所属分类:专业指导

    • 发布日期:2010-09-02
    • 文件大小:244736
    • 提供者:guofeng314
  1. PDF文件信息的抽取与分析

  2. PDF文件信息的抽取与分析 从源代码中取出正文内容字符串流并进行解码,对解码后的文本信息进行分析。
  3. 所属分类:专业指导

    • 发布日期:2010-11-02
    • 文件大小:112640
    • 提供者:aaafz
  1. 文本抽取小工具

  2. 当你想在一个文本文件中抽取出出现某字符串时,是否反感自己一行行得找?用这个工具就可以解决问题^_^,当然还可以进行改进,改成match regexp
  3. 所属分类:C#

    • 发布日期:2008-03-29
    • 文件大小:20480
    • 提供者:powerlly
  1. PowerGrep文本批量抽取工具

  2. 很好用的语料库工具,或者说是批量文本抽取工具。
  3. 所属分类:专业指导

    • 发布日期:2011-03-30
    • 文件大小:11534336
    • 提供者:zhangbc1
  1. 一种基于文本抽取的网页正文去重算法

  2. 搜索结果页面的去重处理是提高网页检索结果质量的有效途径,笔者结合二叉排序树设计了一种基于文本抽取的网页正文去重 算法,本文给出了该算法的具体实现。实验测试结果表明该算法在判断准确率、时间复杂度方面均具有一定优势,可应用于网络信息检索结果 优化处理中的页面正文内容去重。
  3. 所属分类:互联网

    • 发布日期:2011-08-20
    • 文件大小:188416
    • 提供者:jkants
  1. 条件随机场与图像文本抽取

  2. 针对复杂背景图像中的文本抽取问题,文中提出一种基于条件随机场的图像文本抽取方法.不错的一篇论文
  3. 所属分类:C/C++

    • 发布日期:2012-03-26
    • 文件大小:416768
    • 提供者:dolorea
  1. 基于行块分布函数的网页正文内容抽取类源代码(VB.NET)

  2. 此代码为我根据哈工大信息检索实验室陈鑫童鞋的《基于行块分布函数的通用网页正文抽取》和JAVA代码改写而来,此版本为VB.NET版本~~~~希望大家喜欢,多多提意见~~~~有兴趣交流的可以联系偶~~~小志。QQ:99217290
  3. 所属分类:VB

    • 发布日期:2012-08-19
    • 文件大小:5120
    • 提供者:jamesgoasling
  1. Tika in Action

  2. 文本抽取工具,目前可以抽取出RAR文件以外几乎所有文件的文本信息。编程语言为java
  3. 所属分类:其它

    • 发布日期:2013-01-29
    • 文件大小:15728640
    • 提供者:askmen2009
  1. 基于正则表达式的文本抽取软件

  2. 本人用java写的程序,用java的正则表达式抽取本文段落,方便语言工作者和外语学生老师对文本的加工处理.
  3. 所属分类:Java

    • 发布日期:2008-10-23
    • 文件大小:7340032
    • 提供者:nhd2006
  1. 基于DOM树及行文本统计去噪的网页文本抽取技术

  2. 首先对网页源码文本统一编码转为UTF格式,然后把HTML网页文档转换为XML文档并解析为一棵DOM树。依据XML语言特点及噪声特征规则先对DOM树的噪声节点进行过滤删除,然后依据中文标点符号统计方法提取网页正文内容,并在此基础上利用行文本统计方法去除提取出的正文中存在的噪声信息,最后得到网页正文文本。对来自结构完全不同的主流与非主流的中英文新闻网站上的2 000篇网页进行实验,结果表明本文提出的方法具有较高的抽取准确率,并具有很好的通用性和实现简单的特点,适用于针对互联网中不同网站新闻文本信息的
  3. 所属分类:其它

    • 发布日期:2021-03-01
    • 文件大小:817152
    • 提供者:weixin_38631197
  1. 基于循环神经网络的图像特定文本抽取方法

  2. 光学字符识别(OCR)难以针对图像中某些特定文本进行识别,尤其在实际场景中,识别结果通常会包含大量噪声文本。针对这一问题,提出一种基于循环神经网络的双向长短时记忆-条件随机场(BLSTM-CRF)模型。首先利用BLSTM网络捕获OCR识别结果中序列的上下文信息,得到特征序列;然后结合CRF建立模型特征与标签的关系,进行标签预测,通过标签即可得到特定文本。实验结果表明,该方法在场景图像数据集YNIDREAL上可以达到88.52%的准确率,相较于CRF模型,准确率提高了16.39个百分点,证明了本方
  3. 所属分类:其它

    • 发布日期:2021-01-26
    • 文件大小:7340032
    • 提供者:weixin_38683195
« 12 3 4 5 6 7 8 9 10 ... 28 »