您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 中文命名实体识别

  2. 命名实体识别(NE)是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。 命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。
  3. 所属分类:C++

    • 发布日期:2015-03-12
    • 文件大小:879616
    • 提供者:baidu_26515319
  1. 自然语言处理语料库标注集以及符号说明

  2. 花费大量时间搜集的自然语言处理语料库标注集,包括词性标注集、命名实体识别BIO标注、中文组块分析chunk标记。
  3. 所属分类:机器学习

    • 发布日期:2017-12-09
    • 文件大小:168960
    • 提供者:wustjk124
  1. 中文电子病历命名实体识别的主动学习方法研究

  2. 主动学习通过选择现有模型中未充分训练的数据进行迭代训练,从而利用少量标注数据训练出较高性能的模型。 传统的主动学习方法只关注数据本身的信息量而忽略了该数据是否孤立。论文提出一种改进的主动学习方法,利用相似病 历中出现的词汇往往雷同的特点,以文档中文字的分布衡量其在样本集的普遍程度,并以此对信息量进行加权。而后实现 该方法,并进行了与消极学习和传统主动学习方法的对比实验。结果表明,该方法相对消极学习与传统的主动学习方法, 效果有明显提升,能够减少对标注数据的需求。
  3. 所属分类:深度学习

    • 发布日期:2018-07-03
    • 文件大小:3145728
    • 提供者:beaujor
  1. 微软亚研的中文分词、词性标注和命名实体识别语料

  2. 微软亚研的中文分词、词性标注和命名实体识别语料,包括训练和验证集,xml格式,方便使用,机器学习、信息检索以及NLP领域的研究人员使用来训练模型
  3. 所属分类:机器学习

    • 发布日期:2018-10-17
    • 文件大小:4194304
    • 提供者:u010732327
  1. 基于机器阅读理解的嵌套命名实体识别

  2. 基于机器阅读理解的嵌套命名实体识别,王璞,徐蔚然,命名实体识别是自然语言处理领域的重要的基础性问题,经典的处理方法是把它看做序列标注任务,序列标签用于嵌套命名实体的表示时
  3. 所属分类:其它

    • 发布日期:2020-03-12
    • 文件大小:475136
    • 提供者:weixin_38670297
  1. 自然语言处理 中英文分词、词性标注与命名实体识别——文本和代码

  2. 中英文分词工具有很多,今天我们来使用Jieba、SnowNlp、nltk、thunlp、NLPIR、Stanford等六种工具来对给定中英文文本进行分词、词性标注与命名实体识别。
  3. 所属分类:Python

    • 发布日期:2019-05-24
    • 文件大小:7168
    • 提供者:godsolve
  1. 汉语自动分词和命名实体识别

  2.  该资源对命名实体识别和自动分词技术进行了研究。命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。
  3. 所属分类:互联网

    • 发布日期:2012-04-07
    • 文件大小:2097152
    • 提供者:jjychange
  1. 【BERT系列】——命名实体识别

  2. 本文是BERT实战的第二篇,使用BERT进行命名实体识别(序列标注类任务)。 1. 准备 1.1 环境 python 3.7; pytorch 1.3; transformers 2.3 (安装教程); 1.2 数据 数据链接(链接:https://pan.baidu.com/s/1spwmV3_07U0HA9mlde2wMg 提取码:reic); 2. 实战 2.1 训练代码 lr = 5e-5 max_length = 256 batch_size = 8 epoches = 20 cud
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:34816
    • 提供者:weixin_38750406
  1. msra(命名实体语料) BIO schema.zip

  2. 2006年,微软亚洲研究院(Microsoft Research Asia, MSRA)发布的BIO格式标注语料,共计46365条。
  3. 所属分类:深度学习

    • 发布日期:2021-03-16
    • 文件大小:6291456
    • 提供者:YWP_2016
  1. 基于Kinect的命名实体标注工具的研究与实现

  2. 基于Kinect的命名实体标注工具的研究与实现
  3. 所属分类:其它

    • 发布日期:2021-03-01
    • 文件大小:1048576
    • 提供者:weixin_38661852
  1. 基于条件随机场的中医临床病历命名实体抽取

  2. 中医临床病历是中医重要的科研数据资源,但目前临床病历仍以文本为主要表达形式,对病历数据深入分析的前提是进行结构化信息抽取,而命名实体抽取是其基础性步骤。针对中医临床病历的命名实体,如症状、疾病和诱因等的抽取问题,通过手工标注的413份病历数据(以中文字为特征)与4类特征模版,将条件随机场(CRF)、隐马尔科夫模型(HMM)和最大熵马尔科夫模型(MEMM)用于中医病历命名实体抽取的实验,并进行比较分析。结果表明,结合合适的特征模版,CRF命名实体抽取方法取得了较好的性能,F1值的症状达到0.80,
  3. 所属分类:其它

    • 发布日期:2021-02-21
    • 文件大小:915456
    • 提供者:weixin_38656142
  1. ChineseNER:中文命名实体识别,实体抽取,tensorflow,pytorch,BiLSTM + CRF-源码

  2. 中文NER 本项目使用 python 2.7 张量流1.7.0 火炬0.4.0 对命名实体识别不了解的可以先看一下这篇。顺便求star〜 这是最简单的一个命名实体识别BiLSTM + CRF模型。 数据 数据文件夹中有三个开源数据集可以使用,玻森数据( ),1998年人民日报标注数据,MSRA微软亚洲研究院开源数据。其中,boson数据集有6种实体类型,人民日报语料和MSRA一般只提取人名,地名,组织名三种实体类型。 先运行数据中的python文件处理数据,供模型使用。 张量流版 开始训练
  3. 所属分类:其它

    • 发布日期:2021-02-06
    • 文件大小:13631488
    • 提供者:weixin_42107491
  1. lac:百度NLP:分词,词性标注,命名实体识别,词首-源码

  2. 工具介绍 LAC全称中文的词法分析,是百度自然语言处理部研发的一种联合的词法分析工具,实现中文分词,词性标注,专名识别等功能。该工具具有以下特点和优势: 效果好:通过深度学习模型联合学习分词,词性标注,专名识别任务,单词索引,整体效果F1值超过0.91,词性标注F1值超过0.94,专名识别F1值超过0.85,效果领先。 效率高:精简模型参数,结合Paddle预测库的性能优化,CPU单线程性能达800QPS,效率领先。 可定制:实现简单可控的干预机制,精确匹配用户字典对模型进行干预。 调用便捷:支
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:4194304
    • 提供者:weixin_42150341
  1. monpa:MONPA罔拍是一个提供正体中文断词,词性标注以及命名实体识别的多任务模型-源码

  2. 罔拍MONPA:多目标NER POS注释器 MONPA罔拍是一个提供正体中文断词,词性标注以及命名实体识别的多任务模型。初期只有网站示范版本( ),本计划是将monpa包装成可以pip install的python软件包(最新版本v0.3.1)。 最新版的monpa模型是使用pytorch 1.0框架训练出来的模型,所以在使用本版本前,请先安装割炬1. *以上版本才能正常使用monpa套件。 公告 - 本次更新版本 v0.3.2:解決 issue 10, 11 的建議,新增 short_sen
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:8388608
    • 提供者:weixin_42118701
  1. 事件提取:基于法律裁判文书的事件提取及其应用,包括数据的分词,词性标注,命名实体识别,事件要素撤消和判决结果预测等内容-源码

  2. 基于法律裁判文书的事件撤除及其应用 简介 针对交通肇事案件的裁判文书进行事件要素移除,并在此基础上加入决策结果预测,案件相似度匹配等应用场景。 数据来源: 分词:基于pkuseg 词性标注:基于哈工大LTP / pkuseg 命名实体识别:基于BiLSTM-CRF 应用部分:包括判决结果的预测,案件相似度的比较等
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:130023424
    • 提供者:weixin_42168902
  1. Macropodus:自然语言处理工具Macropodus,基于Albert + BiLSTM + CRF深度学习网络架构,中文分词,词性标注,命名实体识别,新词发现,关键词,文本摘要,文本相似度,科学计算器,中文数字阿拉伯NLP的工具(工

  2. Macropodus是一个以Albert + BiLSTM + CRF网络架构为基础,用大量中文语料训练的自然语言处理工具包。将提供中文分词,词性标注,命名实体识别,关键词提取,文本摘要,新词发现,文本相似度,计算器,数字转换,拼音转换,繁简转换等常见的NLP功能。 目录 安装 注意事项默认不安装nlg-yongzhuo, 如果需要该功能自行安装; 默认不指定numpy, pandas, scikit-learn版本, 过高或者过低的版本可能不支持 标准版本的依赖包详见 requirements
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:5242880
    • 提供者:weixin_42112685
  1. named_entity_recognition:中文命名实体识别(包括多种模型:HMM,CRF,BiLSTM,BiLSTM + CRF的具体实现)-源码

  2. 中文命名实体识别 数据集 本项目尝试使用了多种不同的模型(包括HMM,CRF,Bi-LSTM,Bi-LSTM + CRF)来解决中文命名实体识别问题,数据集用的是论文ACL 2018 中收集的简历数据,数据的格式如下,它的每个行由一个字及其对应的标注组成,标注集采用BIOES,句子之间用一个空行替换。 美 B-LOC 国 E-LOC 的 O 华 B-PER 莱 I-PER 士 E-PER 我 O 跟 O 他 O 谈 O 笑 O 风 O 生 O 该数据集就位于项目目录下的ResumeNER文件夹里
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:25165824
    • 提供者:weixin_42119281
  1. Introduction-NLP:HanLP作者的新书《自然语言处理入门》详细笔记!业界良心之作,书中不是枯燥无味的公式罗列,甚至用白话分解的通俗易懂的算法模型。从基本概念出发,逐步介绍中文分词,词性标注,命名实体识别,信息删除,文本聚类,

  2. 简介-自然语言处理 汉良作者何晗老师的新书《自然语言处理入门》详细的笔记!业界良心之作,书中不是枯燥无味的公式罗列,甚至用白话分解的通俗易懂的算法模型。从基本概念出发,逐步介绍中文分词,词性标注,命名实体识别,信息删除,文本聚类,文本分类,句法分析这几个热门问题的算法原理与工程实现。 本项目初步帮助更多同路人能够快速的掌握NLP的专业知识,理清知识要点,在工作中发挥作用的作用。以书本为主,记录本人学习此书的心路历程,总结和笔记。 机器学习与深度学习请转至本人项目: HanLP项目: 思维导
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:6291456
    • 提供者:weixin_42150360
  1. jiagu:jiagu深度学习自然语言处理工具知识图谱关系抽取中文分词词性标注命名实体识别情感分析新词发现-源码

  2. Jiagu自然语言处理工具 将提供中文分词,词性标注,命名实体识别,情感分析,知识图谱关系转移,关键字检索,文本摘要,新词发现,情感分析,文本聚类等常用自然语言处理功能。参考了各大工具优缺点制作,将Jiagu回馈给大家。 目录 提供的功能有: 中文分词 词性标注 命名实体识别 知识图谱关系抽取 关键词提取 文字摘要 新词发现 情感分析 文本聚类 等等。。。。 安装方式 点安装 pip install -U jiagu 如果比较慢,可以使用清华的pip源: pip install -U jiagu
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:58720256
    • 提供者:weixin_42127783
  1. HanLP:中文分词词性标注命名实体识别依存句法分析语义依存分析新词发现用自动生成的摘要进行文本分类聚类拼音简繁转换自然语言处理-源码

  2. HanLP:汉语言处理 || || 面向生产环境的多语种自然语言处理工具包,基于PyTorch和TensorFlow 2.x双引擎,目标是普及落地最前沿的NLP技术。HanLP实现功能完善,性能高效,架构清晰,语料时新,可自定义的特点。 穿越世界上最大的多语言种语料库,HanLP2.1支持包括简繁中英日俄法德内部的104种语言上的10种联合任务:分词(粗分,细分2个标准,强制,合并,校正3种),词性标注(PKU,863,CTB,UD四套词性规范),命名实体识别(PKU,MSRA,OntoNot
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:775168
    • 提供者:weixin_42134054
« 12 3 4 5 6 7 »