搜索资源 - 抽取词表 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 抽取词表

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

基于本体的专利摘要知识抽取球
采用知识工程的方法，对“新能源汽车”中文专利摘要进行研究分析，提出一个基于本体的中文专利摘要抽取模型。通过构建相应的本体、收集相关的词表、撰写相应的规则，并利用这些规则对专利摘要进行知识抽取结果，抽取结果辅助完成专利知识库的自动构建。即就如何组织非结构化信息以及如何自动构建知识库进行尝试，验证基于本体对专利摘要进行知识抽取的可行性。
所属分类：专业指导
- 发布日期：2010-03-02
- 文件大小：610304
- 提供者：wly_luffy

可应用于互联网的自学习中文关键词抽取算法
请先下载CAJ阅读器只有算法介绍 1 使用停用词表排除常用虚词及无用实词; 2 根据文档长度确定低频阈词，并排除在文档中出现次数据低于阈值的词; 3 根据词在文档中出现的次数与关键词知识库的信息计算每个词的词频；。。。。。。
所属分类：其它
- 发布日期：2010-11-09
- 文件大小：25600
- 提供者：qdfch

GATE 13 词表.doc
用于对文本进行实体识别、语义标注的软件和源码的文档。
所属分类：企业管理
- 发布日期：2012-12-21
- 文件大小：555008
- 提供者：jakensonwjh3

文本去重（去除数组中重复项）
文本去重（去除数组中重复项），可以用来抽取汉语词表这些，用的朋友可以
所属分类：Java
- 发布日期：2013-12-12
- 文件大小：14336
- 提供者：zhengchangren

GATE 自然语言处理
第一部分 GATE基础第1章引言 5 程显毅第2章安装和运行GATE 27 程显毅第3章GATE Developer使用 36 张晓留第4章 CREOLE: GATE组件模型 69 常俊第5章语言资源: 语料库,文档和标注 89 杨萌萌第6章ANNIE: 信息抽取系统 113 陆旦前，朱佳第二部分 GATE高级用户第7章 GATE Embedded 133 夏晓东第8章JAPE: 标注规则表达式 181 葛秀芳，夏紫红第9章ANNIC: 上下文标注 217 程显毅第1
所属分类：其它
- 发布日期：2014-07-10
- 文件大小：3145728
- 提供者：u011389474

中文情感分析语料整理
# 语料库说明 ------------------------------------------------------------------------ ## 词典 1、HowNet 情感词典 2、ntusd 情感词典 3、情感分析停用词表 4、结巴分词自定义词典 5、常用语词典，包括流行新词，网络流行词，手机词汇，粤语，潮语潮词、*-通讯产品词汇等 ## 手机评论数据 1、HTC手机评论，包括打分，共302篇1-5 2、魅族手机评论，包括打分，共529篇1-5 3、诺基亚手机评
所属分类：机器学习
- 发布日期：2018-08-13
- 文件大小：12582912
- 提供者：xhyqlbd

自然语言处理常用数据
涉及内容包括：中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库、否定词库、汽车品牌词库、汽车零件词库、连续英文切割、各种中文词向量、公司名字大全、古诗词库、IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库、中文聊天语料、中
所属分类：深度学习
- 发布日期：2018-11-24
- 文件大小：53477376
- 提供者：m0_38106923

基于形式概念分析的煤矿事故本体构建
为解决煤矿事故知识管理混乱、联动不足等问题,构建了基于形式概念分析的煤矿事故本体。首先分别构建以煤矿领域的主题词表和文本集为数据源的形式背景,并通过并叠置运算得到异构资源的形式背景,然后利用概念格构造工具将形式背景转换为概念格,最后从概念格中抽取概念、属性和实例组织成煤矿事故本体。利用煤矿事故本体对煤矿事故知识进行组织和形式化表示,可实现煤矿事故知识的共享和重用,为煤矿安全预警提供帮助。
所属分类：其它
- 发布日期：2020-05-10
- 文件大小：1048576
- 提供者：weixin_38590541

stopwordlist.txt
最全中文停用词表整理（1893个），可用于自然语言处理任务，比如文本分类，文本摘要，关系抽取，事件抽取等
所属分类：深度学习
- 发布日期：2020-04-08
- 文件大小：15360
- 提供者：wieasyui

VNC结构多词表达的抽取与分类
VNC结构多词表达的抽取与分类，缪苗，，多词表达是指两个（或两个以上的）词单元同时出现一起的概率相对较高的词组和。多词表达涵盖了多种词单元的组合形式。多词表达在
所属分类：其它
- 发布日期：2019-12-29
- 文件大小：318464
- 提供者：weixin_38699726

基于深度学习的领域实体属性词聚类抽取研究
属性词的聚类是领域实体属性抽取中的一个重要步骤。在未知领域和大量文本中，人工标注寻找十分困难。本文将一种基于深度学习框架的词语嵌入表示方法（Word Embedding）引入到领域实体属性词聚类研究中，在无监督条件下解决大规模语料、领域实体属性词表人工参与构建代价较高的问题，并进行了适当的扩展，取得了较好的效果，可以为信息抽取等后续高级任务提供较好服务。
所属分类：其它
- 发布日期：2020-10-16
- 文件大小：656384
- 提供者：weixin_38677808

阅读理解实战（一）
BIDAF基线模型基线系统实现数据集分析数据集是DuReader,特点是一个问题对应着多篇文章，我们要从多篇文章中抽取出正确的答案。一条训练数据样式如下：预处理这里使用的是训练好的sgns.wiki.word的词向量下载地址为sgns.wiki.word 也可以建立词表，随机初始化词向量 def prepare(args): """ checks data, creates the directories, prepare the vocabulary and e
所属分类：其它
- 发布日期：2020-12-22
- 文件大小：262144
- 提供者：weixin_38641896

自然语言关键词提取
关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来，在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用。关键词提取算法一般分为有监督和无监督两类有监督的关键词提取方法主要是通过分类的方式进行，通过构建一个较为丰富和完善的词表，然后判断每个文档与词表中每个词的匹配程度，以类似打标签的方式，达到关键词提取的效果。优点是精度较高，缺点是需要大批量的标注数据，人工成本过高，并且词表需要及时维护。相比较而言，无监督的方法对数据的要求低，既不需要一张人工生成，维护的词表，也不需要人
所属分类：其它
- 发布日期：2021-01-07
- 文件大小：96256
- 提供者：weixin_38546789

基于改进DE-Tri-Training算法的汉语多词表达抽取
基于改进DE-Tri-Training算法的汉语多词表达抽取
所属分类：其它
- 发布日期：2021-02-21
- 文件大小：1048576
- 提供者：weixin_38603704

基于语义角色标注的专利主题提取研究
主题自动提取对于专利文献的信息挖掘具有重要的意义。引入语义角色标注信息来辅助自动提取专利文献主题，区别于已有的专利文本分析平台所采用的人工标注或模板方式。为了改善专利文献的语义角色标注，首先描述将专利文献长句自动拆分成简化句的方法；其次，对简化句进行语义角色标注；最后，综合利用简化句语义信息以及自建带语义框架的常用词表，对专利文献进行主题信息抽取，获得必要信息，从而证实本研究的实用价值。
所属分类：其它
- 发布日期：2021-02-11
- 文件大小：1048576
- 提供者：weixin_38628953

三元组可比语料库自动剖析技术研究与应用
国内外基于语料库的翻译研究主要集中在翻译共性、翻译规范、译者风格和翻译培训等涉及翻译理论和翻译实践方面的研究；提出的基于三元组可比语料库的自动语言剖析技术扩大了该研究领域的内涵，使其包括面向自然语言处理的应用研究。从工程可实现性考虑，创新性地提出了建造三元组可比语料库，利用n-元词串、关键词簇和语义多词表达等自动抽取技术，通过对比中式英语表达，发掘英语本族语言模型，实现改进和发展机器翻译、跨语言信息检索等自然语言处理应用的目标。
所属分类：其它
- 发布日期：2021-02-09
- 文件大小：1048576
- 提供者：weixin_38674627

Python结巴中文分词工具使用过程中遇到的问题及解决方法
本文实例讲述了Python结巴中文分词工具使用过程中遇到的问题及解决方法。分享给大家供大家参考，具体如下：结巴分词是Python语言中效果最好的分词工具，其功能包括：分词、词性标注、关键词抽取、支持用户词表等。这几天一直在研究这个工具，在安装与使用过程中遇到一些问题，现在把自己的一些方法帖出来分享一下。官网地址：https://github.com/fxsjy/jieba 1、安装。按照官网上的说法，有三种安装方式，第一种是全自动安装：easy_install jieba 或者 pip
所属分类：其它
- 发布日期：2021-01-20
- 文件大小：99328
- 提供者：weixin_38632046

基于语义角色标注的专利主题提取研究
主题自动提取对于专利文献的信息挖掘具有重要的意义。引入语义角色标注信息来辅助自动提取专利文献主题，区别于已有的专利文本分析平台所采用的人工标注或模板方式。为了改善专利文献的语义角色标注，首先描述将专利文献长句自动拆分成简化句的方法；其次，对简化句进行语义角色标注；最后，综合利用简化句语义信息以及自建带语义框架的常用词表，对专利文献进行主题信息抽取，获得必要信息，从而证实本研究的实用价值。
所属分类：其它
- 发布日期：2021-03-30
- 文件大小：1048576
- 提供者：weixin_38650629