搜索资源 - crf标注语料 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - crf标注语料

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

基于条件随机场（CRFs）的中文词性标注方法
本文提出一种基于CRFs 模型的中文词性标注方法。该方法利用CRFs 模型能够添加任意特征的优点,在使用词的上下文信息的同时,针对兼类词和未登录词添加了新的统计特征。在《人民日报》1 月份语料库上进行的封闭测试和开放测试中,该方法的标注准确率分别为98. 56 %和96. 60 %。
所属分类：专业指导
- 发布日期：2010-05-20
- 文件大小：353280
- 提供者：jiangtinghaha

crf分词标注训练语料
用与crf分词，标注训练语料。 nlpcc2015任务一的数据
所属分类：其它
- 发布日期：2015-09-16
- 文件大小：10485760
- 提供者：baidu_26550817

Java 词海分析自然语言分析人名地名机构名提取自定义词典
中文分词最短路分词 N-最短路分词 CRF分词索引分词极速词典分词用户自定义词典词性标注命名实体识别中国人名识别音译人名识别日本人名识别地名识别实体机构名识别关键词提取 TextRank关键词提取自动摘要 TextRank自动摘要短语提取基于互信息和左右信息熵的短语提取拼音转换多音字声母韵母声调简繁转换繁体中文分词简繁分歧词（简体、繁体、臺灣正體、香港繁體）文本推荐语义推荐拼音推荐字词推荐依存句法分析基于神经网络的高性能依存句法分析器
所属分类：Java
- 发布日期：2017-10-11
- 文件大小：22020096
- 提供者：vip923803855

人明日报2014年crf标注语料整理文档
收集人明日报2014年标注预料并将其进行整合，非常实用
所属分类：机器学习
- 发布日期：2017-11-15
- 文件大小：4194304
- 提供者：wb9idq78

201年人民日报标注语料
这个人命日报语料还不错，用作学习建模十分好。在做crf建模的时候建议加上自己制作的语料加强语料里面的识别特征
所属分类：深度学习
- 发布日期：2018-03-27
- 文件大小：93323264
- 提供者：weixin_40978418

中文NLP命名实体识别序列标注工具YEDDA
中文NLP序列标注工具。利用CRF进行命名实体识别NER，自动标注数据集产生语料库，可以选择BIO或者BMES标注体系。
所属分类：机器学习
- 发布日期：2018-06-26
- 文件大小：9437184
- 提供者：jewelshaw

HanLP：汉语语言处理-源码
HanLP是一系列模型与算法组成的NLP工具包，由大快搜索主导并完全开源，目标是普及自然语言处理在生产环境中的应用.HanLP具备功能完善，性能高效，架构清晰，语料时新，可自定义的特点。 HanLP提供下列功能：中文分词 HMM-两字组（速度与精度最佳平衡;一百兆内存）最短路分词，N-最短路分词由字构词（侧重精度，全世界最大语料库，可识别新词;适合NLP任务）感知机分词，CRF分词词典分词（侧重速度，每秒数千万字符;省内存）极速词典分词所有分词器都支持：索引全切分模式用户自定
所属分类：机器学习
- 发布日期：2019-03-07
- 文件大小：98566144
- 提供者：iskugs

Android代码-Java 实现的自然语言处理中文分词
HanLP: Han Language Processing 汉语言处理包 HanLP是一系列模型与算法组成的NLP工具包，由大快搜索主导并完全开源，目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 HanLP提供下列功能：中文分词 HMM-Bigram（速度与精度最佳平衡；一百兆内存）最短路分词、N-最短路分词由字构词（侧重精度，全世界最大语料库，可识别新词；适合NLP任务）感知机分词、CRF分词词典分词（侧重速度，每
所属分类：其它
- 发布日期：2019-08-06
- 文件大小：22020096
- 提供者：weixin_39840924

基于Albert+BiLSTM+CRF深度学习网络架构的自然语言处理工具-MacropodusMacropodus.zip
Macropodus是一个以Albert+BiLSTM+CRF网络架构为基础，用大规模中文语料训练的自然语言处理工具包。将提供中文分词、词性标注、命名实体识别、关键词抽取、文本摘要、新词发现、文本相似度、计算器、数字转换、拼音转换、繁简转换等常见NLP功能。
所属分类：其它
- 发布日期：2020-05-06
- 文件大小：4194304
- 提供者：weixin_38747087

自然语言处理-条件随机场工具集
自然语言处理、条件随机场运用字标注法进行中文分词，对语料进行字标注，观察分词效果。开源的条件随机场工具包“CRF++: Yet Another CRF toolkit”进行分词。可以使用的中文语料资源是SIGHAN提供的backoff 2005语料，目前封闭测试最好的结果是4-tag+CFR标注分词，在北大语料库上可以在准确率，召回率以及F值上达到92%以上的效果，在微软语料库上可以到达96%以上的效果。
所属分类：机器学习
- 发布日期：2020-03-22
- 文件大小：1048576
- 提供者：qianjin_w

通过CRF进行实体识别.zip
1、已经标注好的语料库 2、crf++工具 2.2 语料库划分后的训练集、测试集 2.3 训练集，测试集进行处理后的结果 2.4 crf_learn用到的模板 2.5 crf_learn生成的model 2.6 crf_test生成的result
所属分类：机器学习
- 发布日期：2019-12-27
- 文件大小：94371840
- 提供者：athreading

统计自然语言处理
统计自然语言处理是一本很好的书籍，是一本很基础的书籍目录序二第2版前宣第1版前言第1章绪论 11基本概念 1.1.1语言学与语音学 2自然语言处理 11.3关于“理解”的标准 1,2自然语言处理研究的内容和面临的困难 1,2,1自然语言处理研宄的内容 1,22自然语言处理涉及的几个层次 1.2.3自然语言处理面临的困难 13自然语言处理的基本方法及其发展 13,1自然语言处理的基本方汏 3,2自然语言处理的发展 14自然语言处理的研究现状本书的内容安挂第2章顸备知识 2,1概率论基本
所属分类：Python
- 发布日期：2019-03-04
- 文件大小：25165824
- 提供者：weixin_34749051

guwenbert:古文·伯特-源码
| GuwenBERT是一个基于大量古文语料的RoBERTa模型。在自然语言处理领域中，预训练语言模型（预训练语言模型）已成为非常重要的基础技术。古文研究和自然语言处理的结合，我们发布了古文预训练模型GuwenBERT 。对于古文的常见任务：断句，标点，专有名称标注，目前通常采用序列标注模型。此类模型非常依赖预训练的词向量或者BERT，所以一个好的语言模型可以大大提高标注效果。通过实验，在RoBERTa效果提高6.3％，只需300步就可以达到中文RoBERTa的最终水平，特别适合替换语料
所属分类：其它
- 发布日期：2021-03-19
- 文件大小：2097152
- 提供者：weixin_42175516

基于Co-training训练CRF模型的评价对象识别
评价对象是指某段评论中评价词语所修饰的对象或对象的属性。为了识别评论中的评价对象,提出基于Co-training的训练CRF模型方法。该方法首先人工标注少量的原始数据集,使用Co-training方式对未标注数据进行自动识别,以扩大已标注训练数据。通过原始标注数据集和Co-training方式标注数据集,训练CRF模型。在汽车领域中,对待标注汽车评论语料中评价对象识别的精确率为67.483%,召回率为67.832%。
所属分类：其它
- 发布日期：2021-03-16
- 文件大小：770048
- 提供者：weixin_38647517

ChineseNER：中文命名实体识别，实体抽取，tensorflow，pytorch，BiLSTM + CRF-源码
中文NER 本项目使用 python 2.7 张量流1.7.0 火炬0.4.0 对命名实体识别不了解的可以先看一下这篇。顺便求star〜这是最简单的一个命名实体识别BiLSTM + CRF模型。数据数据文件夹中有三个开源数据集可以使用，玻森数据（），1998年人民日报标注数据，MSRA微软亚洲研究院开源数据。其中，boson数据集有6种实体类型，人民日报语料和MSRA一般只提取人名，地名，组织名三种实体类型。先运行数据中的python文件处理数据，供模型使用。张量流版开始训练
所属分类：其它
- 发布日期：2021-02-06
- 文件大小：13631488
- 提供者：weixin_42107491

NLP工具：:face_savoring_food:本项目推进通过Tensorflow基于BiLSTM + CRF实现中文分词，词性标注，命名实体识别（NER）-源码
NLP工具本项目初步通过Tensorflow基于BiLSTM + CRF实现字符级序列标注模型。功能： 1，对未登录字（词）识别能力 2，Http接口 3，可快速实现分词，词性标注，NER，SRL等序列标注模型欢迎各位大佬吐槽。说明环境配置：创建新的conda环境 $ conda env create -f environment.yaml 语料处理不同标注语料格式不同，需要额外处理，在示例/DataPreprocessing.ipynb中提供了人民日报2014准备过程（该语料集
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：29696
- 提供者：weixin_42165018

Macropodus：自然语言处理工具Macropodus，基于Albert + BiLSTM + CRF深度学习网络架构，中文分词，词性标注，命名实体识别，新词发现，关键词，文本摘要，文本相似度，科学计算器，中文数字阿拉伯NLP的工具（工
Macropodus是一个以Albert + BiLSTM + CRF网络架构为基础，用大量中文语料训练的自然语言处理工具包。将提供中文分词，词性标注，命名实体识别，关键词提取，文本摘要，新词发现，文本相似度，计算器，数字转换，拼音转换，繁简转换等常见的NLP功能。目录安装注意事项默认不安装nlg-yongzhuo, 如果需要该功能自行安装; 默认不指定numpy, pandas, scikit-learn版本, 过高或者过低的版本可能不支持标准版本的依赖包详见 requirements
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：5242880
- 提供者：weixin_42112685