您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 基于本体的专利摘要知识抽取球

  2. 采用知识工程的方法,对“新能源汽车”中文专利摘要进行研究分析,提出一个基于本体的中文专利摘要 抽取模型。通过构建相应的本体、收集相关的词表、撰写相应的规则,并利用这些规则对专利摘要进行知识抽取 结果,抽取结果辅助完成专利知识库的自动构建。即就如何组织非结构化信息以及如何自动构建知识库进行尝 试,验证基于本体对专利摘要进行知识抽取的可行性。
  3. 所属分类:专业指导

    • 发布日期:2010-03-02
    • 文件大小:610304
    • 提供者:wly_luffy
  1. 可应用于互联网的自学习中文关键词抽取算法

  2. 请先下载CAJ阅读器 只有算法介绍 1 使用停用词表排除常用虚词及无用实词; 2 根据文档长度确定低频阈词,并排除在文档中出现次数据低于阈值的词; 3 根据词在文档中出现的次数与关键词知识库的信息计算每个词的词频; 。。。。。。
  3. 所属分类:其它

    • 发布日期:2010-11-09
    • 文件大小:25600
    • 提供者:qdfch
  1. GATE 13 词表.doc

  2. 用于对文本进行实体识别、语义标注的软件和源码的文档。
  3. 所属分类:企业管理

    • 发布日期:2012-12-21
    • 文件大小:555008
    • 提供者:jakensonwjh3
  1. 文本去重(去除数组中重复项)

  2. 文本去重(去除数组中重复项),可以用来抽取汉语词表这些,用的朋友可以
  3. 所属分类:Java

    • 发布日期:2013-12-12
    • 文件大小:14336
    • 提供者:zhengchangren
  1. GATE 自然语言处理

  2. 第一部分 GATE基础 第1章 引言 5 程显毅 第2章 安装和运行GATE 27 程显毅 第3章GATE Developer使用 36 张晓留 第4章 CREOLE: GATE组件模型 69 常俊 第5章语言资源: 语料库,文档和标注 89 杨萌萌 第6章ANNIE: 信息抽取系统 113 陆旦前,朱佳 第二部分 GATE高级用户 第7章 GATE Embedded 133 夏晓东 第8章JAPE: 标注规则表达式 181 葛秀芳,夏紫红 第9章ANNIC: 上下文标注 217 程显毅 第1
  3. 所属分类:其它

    • 发布日期:2014-07-10
    • 文件大小:3145728
    • 提供者:u011389474
  1. 中文情感分析语料整理

  2. # 语料库说明 ------------------------------------------------------------------------ ## 词典 1、HowNet 情感词典 2、ntusd 情感词典 3、情感分析停用词表 4、结巴分词自定义词典 5、常用语词典,包括流行新词,网络流行词,手机词汇,粤语,潮语潮词、阿里巴巴-通讯产品词汇等 ## 手机评论数据 1、HTC手机评论,包括打分,共302篇1-5 2、魅族手机评论,包括打分,共529篇1-5 3、诺基亚手机评
  3. 所属分类:机器学习

    • 发布日期:2018-08-13
    • 文件大小:12582912
    • 提供者:xhyqlbd
  1. 自然语言处理常用数据

  2. 涉及内容包括:中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库、否定词库、汽车品牌词库、汽车零件词库、连续英文切割、各种中文词向量、公司名字大全、古诗词库、IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库、中文聊天语料、中
  3. 所属分类:深度学习

    • 发布日期:2018-11-24
    • 文件大小:53477376
    • 提供者:m0_38106923
  1. 基于形式概念分析的煤矿事故本体构建

  2. 为解决煤矿事故知识管理混乱、联动不足等问题,构建了基于形式概念分析的煤矿事故本体。首先分别构建以煤矿领域的主题词表和文本集为数据源的形式背景,并通过并叠置运算得到异构资源的形式背景,然后利用概念格构造工具将形式背景转换为概念格,最后从概念格中抽取概念、属性和实例组织成煤矿事故本体。利用煤矿事故本体对煤矿事故知识进行组织和形式化表示,可实现煤矿事故知识的共享和重用,为煤矿安全预警提供帮助。
  3. 所属分类:其它

    • 发布日期:2020-05-10
    • 文件大小:1048576
    • 提供者:weixin_38590541
  1. stopwordlist.txt

  2. 最全中文停用词表整理(1893个),可用于自然语言处理任务,比如文本分类,文本摘要,关系抽取,事件抽取等
  3. 所属分类:深度学习

    • 发布日期:2020-04-08
    • 文件大小:15360
    • 提供者:wieasyui
  1. VNC结构多词表达的抽取与分类

  2. VNC结构多词表达的抽取与分类,缪苗,,多词表达是指两个(或两个以上的)词单元同时出现一起的概率相对较高的词组和。多词表达涵盖了多种词单元的组合形式。多词表达在
  3. 所属分类:其它

    • 发布日期:2019-12-29
    • 文件大小:318464
    • 提供者:weixin_38699726
  1. 基于深度学习的领域实体属性词聚类抽取研究

  2. 属性词的聚类是领域实体属性抽取中的一个重要步骤。在未知领域和大量文本中,人工标注寻找十分困难。本文将一种基于深度学习框架的词语嵌入表示方法(Word Embedding)引入到领域实体属性词聚类研究中,在无监督条件下解决大规模语料、领域实体属性词表人工参与构建代价较高的问题,并进行了适当的扩展,取得了较好的效果,可以为信息抽取等后续高级任务提供较好服务。
  3. 所属分类:其它

    • 发布日期:2020-10-16
    • 文件大小:656384
    • 提供者:weixin_38677808
  1. 阅读理解实战(一)

  2. BIDAF基线模型 基线系统实现 数据集分析 数据集是DuReader,特点是一个问题对应着多篇文章,我们要从多篇文章中抽取出正确的答案。 一条训练数据样式如下: 预处理 这里使用的是训练好的sgns.wiki.word的词向量 下载地址为sgns.wiki.word 也可以建立词表,随机初始化词向量 def prepare(args): """ checks data, creates the directories, prepare the vocabulary and e
  3. 所属分类:其它

    • 发布日期:2020-12-22
    • 文件大小:262144
    • 提供者:weixin_38641896
  1. 自然语言关键词提取

  2. 关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来,在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用。 关键词提取算法一般分为有监督和无监督两类 有监督的关键词提取方法主要是通过分类的方式进行,通过构建一个较为丰富和完善的词表,然后判断每个文档与词表中每个词的匹配程度,以类似打标签的方式,达到关键词提取的效果。优点是精度较高,缺点是需要大批量的标注数据,人工成本过高,并且词表需要及时维护。 相比较而言,无监督的方法对数据的要求低,既不需要一张人工生成,维护的词表,也不需要人
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:96256
    • 提供者:weixin_38546789
  1. 基于改进DE-Tri-Training算法的汉语多词表达抽取

  2. 基于改进DE-Tri-Training算法的汉语多词表达抽取
  3. 所属分类:其它

    • 发布日期:2021-02-21
    • 文件大小:1048576
    • 提供者:weixin_38603704
  1. 基于语义角色标注的专利主题提取研究

  2. 主题自动提取对于专利文献的信息挖掘具有重要的意义。引入语义角色标注信息来辅助自动 提取专利文献主题,区别于已有的专利文本分析平台所采用的人工标注或模板方式。为了改善专利文献的语 义角色标注,首先描述将专利文献长句自动拆分成简化句的方法;其次,对简化句进行语义角色标注;最后,综 合利用简化句语义信息以及自建带语义框架的常用词表,对专利文献进行主题信息抽取,获得必要信息,从而 证实本研究的实用价值。
  3. 所属分类:其它

    • 发布日期:2021-02-11
    • 文件大小:1048576
    • 提供者:weixin_38628953
  1. 三元组可比语料库自动剖析技术研究与应用

  2. 国内外基于语料库的翻译研究主要集中在翻译共性、翻译规范、译者风格和翻译培训等涉及翻译理论和翻译实践方面的研究;提出的基于三元组可比语料库的自动语言剖析技术扩大了该研究领域的内涵,使其包括面向自然语言处理的应用研究。从工程可实现性考虑,创新性地提出了建造三元组可比语料库,利用n-元词串、关键词簇和语义多词表达等自动抽取技术,通过对比中式英语表达,发掘英语本族语言模型,实现改进和发展机器翻译、跨语言信息检索等自然语言处理应用的目标。
  3. 所属分类:其它

    • 发布日期:2021-02-09
    • 文件大小:1048576
    • 提供者:weixin_38674627
  1. Python结巴中文分词工具使用过程中遇到的问题及解决方法

  2. 本文实例讲述了Python结巴中文分词工具使用过程中遇到的问题及解决方法。分享给大家供大家参考,具体如下: 结巴分词是Python语言中效果最好的分词工具,其功能包括:分词、词性标注、关键词抽取、支持用户词表等。这几天一直在研究这个工具,在安装与使用过程中遇到一些问题,现在把自己的一些方法帖出来分享一下。 官网地址:https://github.com/fxsjy/jieba 1、安装。 按照官网上的说法,有三种安装方式, 第一种是全自动安装:easy_install jieba 或者 pip
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:99328
    • 提供者:weixin_38632046
  1. 基于语义角色标注的专利主题提取研究

  2. 主题自动提取对于专利文献的信息挖掘具有重要的意义。引入语义角色标注信息来辅助自动 提取专利文献主题,区别于已有的专利文本分析平台所采用的人工标注或模板方式。为了改善专利文献的语 义角色标注,首先描述将专利文献长句自动拆分成简化句的方法;其次,对简化句进行语义角色标注;最后,综 合利用简化句语义信息以及自建带语义框架的常用词表,对专利文献进行主题信息抽取,获得必要信息,从而 证实本研究的实用价值。
  3. 所属分类:其它

    • 发布日期:2021-03-30
    • 文件大小:1048576
    • 提供者:weixin_38650629