搜索资源 - nlp中文语料 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - nlp中文语料

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

360万中文词库+词性+词频
360万中文词库+词性+词频词典结构为：词语\t词性\t词频。词频是用ansj分词对270G新闻语料进行分词统计词频获得。本人感觉需要特别说明的是词典整理过程中存在部分词汇无法确定是什么词性，对词性进行特别标注：nw和comb 1、词性nw表示本身不知道是什么词性。 2、词性comb表示通过ansj的nlp分词之后又被拆成了两个词。
所属分类：其它
- 发布日期：2015-04-22
- 文件大小：29360128
- 提供者：xmp3x

搜狗中文分词语料
搜狗中文语料库搜狗中文语料库搜狗中文语料库搜狗中文语料库搜狗中文语料库
所属分类：其它
- 发布日期：2018-06-20
- 文件大小：54525952
- 提供者：qq_19312071

中文NLP命名实体识别序列标注工具YEDDA
中文NLP序列标注工具。利用CRF进行命名实体识别NER，自动标注数据集产生语料库，可以选择BIO或者BMES标注体系。
所属分类：机器学习
- 发布日期：2018-06-26
- 文件大小：9437184
- 提供者：jewelshaw

中文自然语言处理中文分词训练语料
本次提供的中文汉语语料syj_trainCorpus_utf8.txt全网免费，转载需要注明出处，语料是作者通过爬取的短文本和网络上的预料处理、合并生成的。整个语料大小264M，包含1116903条数据，数据用空格隔开，可以用来训练分词模型。
所属分类：机器学习
- 发布日期：2018-07-02
- 文件大小：113246208
- 提供者：qq_36330643

基于单文本指代消解的人物家庭网络构建研究
人物家庭网络是社会关系网络中的一个重要组成部分，因此，如何高效准确地提取出人物的家庭网络具有重要研究意义。该文在前人工作的基础上提出一种基于单文本指代消解技术的人物家庭关系抽取方法，以此扩大人物家庭关系抽取的范围，进而提高人物家庭网络的召回性能。该文还提出了一种基于人物虚拟边的家庭网络评估指标，用于更合理地评价构建出的人物家庭网络的性能。在大规模中文语料Ｇｉｇａｗｏｒｄ上的实验表明，该方法可以较为准确地抽取出人物的家庭关系，进而提高人物家庭网络的召回性能，从而为社会网络分析提供基础数
所属分类：机器学习
- 发布日期：2018-07-03
- 文件大小：485376
- 提供者：qq_36182996

最新最全nlp中文问答语料对
2018最新最全nlp中文问答语料对，包括常规问答，笑话等
所属分类：深度学习
- 发布日期：2018-07-22
- 文件大小：24117248
- 提供者：qq_26336495

宾州中文树库分词指导手册《The Segmentation Guidelines for the Penn Chinese TreeBank(3.0)》
宾州中文树库的文档之一：描述中文树库的分词准则是什么文档导读：https://blog.csdn.net/tong_xin2010/article/details/81328070
所属分类：机器学习
- 发布日期：2018-08-01
- 文件大小：323584
- 提供者：tong_xin2010

人民日报中文分词语料库
用于HMM中文分词训练，代码可以参见：https://blog.csdn.net/qq_38593211/article/details/81637029
所属分类：机器学习
- 发布日期：2018-08-13
- 文件大小：16777216
- 提供者：qq_38593211

中文短文本情感分析语料外卖评价
短文本情感分析语料,某外卖平台收集的用户评价,正负各8000条,共16000条
所属分类：机器学习
- 发布日期：2018-02-02
- 文件大小：395264
- 提供者：cstkl

搜狐新闻中文语料（已分类整理）
在搜狗实验室下载的搜狐新闻数据整理后的一部分中文分类语料~
所属分类：机器学习
- 发布日期：2018-02-08
- 文件大小：178257920
- 提供者：wxxiangge

366万常用的中文词汇整理
作者：刘邵博此词典为个人综合多本词典整合的一个大词典，词典共有词汇3669216个词汇。词典结构为：词语\t词性\t词频。词频是用ansj分词对270G新闻语料进行分词统计词频获得。部分词汇无法确定是什么词性，对词性进行特别标注：nw和comb 1、词性nw表示本身不知道是什么词性。 2、词性comb表示通过ansj的nlp分词之后又被拆成了两个词。
所属分类：机器学习
- 发布日期：2018-09-02
- 文件大小：20971520
- 提供者：weixin_39128119

Coae中文微博语料库
中文微博语料库2014.包含COAE2014会议五个任务的评测数据，任务1 ：面向新闻的情感关键句抽取与判定在给定新闻集合（每篇文章已切成句子）中，判别每篇文章的情感关键句。任务2：跨语言情感倾向性分析本任务是对给定多语言篇章级数据集，要求参加系统自动分析多语言篇章级数据集每个情感句的情感倾向性，即（褒义、贬义或者中性）。任务3：微博情感新词发现与判定本任务是对给定大规模的微博句子集，要求参赛系统自动发现新的词语（不在给定的词典以内），以及每个词语的情感倾向性，即褒义、贬义或
所属分类：机器学习
- 发布日期：2018-10-14
- 文件大小：44040192
- 提供者：qq_24435185

微软亚研的中文分词、词性标注和命名实体识别语料
微软亚研的中文分词、词性标注和命名实体识别语料，包括训练和验证集，xml格式，方便使用，机器学习、信息检索以及NLP领域的研究人员使用来训练模型
所属分类：机器学习
- 发布日期：2018-10-17
- 文件大小：4194304
- 提供者：u010732327

分词-词性标注-词典-中文语料库.zip
分类_分词12大类5485文本1127万_搜狗.20151022 各种词库用语分词、词性标注等自然语言处理NLP任务
所属分类：机器学习
- 发布日期：2019-05-23
- 文件大小：8388608
- 提供者：u010732327

50W聊天语料训练数据.zip
50万条中文闲聊对话高质量语料，最新整理，包括很多热门语句和流行词汇。适用于NLP（自然语言处理）进行对话学习训练，可用于聊天机器人研究和开发。
所属分类：机器学习
- 发布日期：2020-04-20
- 文件大小：30408704
- 提供者：vonagane

funNLP：中英文敏感词，语言检测，中外手机电话归属地运营商查询，名字性别，手机号删除，身份证提取，邮箱删除，中日文人名库，中文缩写库，拆字词典，词汇情感值，停用词，反动词表，暴恐词表，繁简体转换，英语模拟中文最佳，汪峰歌词生成器，职业名
NLP民工的乐园最强大的NLP武器库 NLP民工的乐园：几乎最全的中文NLP资源库词库工具包学习资料在入门到熟悉NLP的过程中，用到了很多github上的包，遂整理了一下，分享在这里。很多包非常有趣，值得收藏，满足大家的收集癖！如果觉得有用，请分享并star，谢谢！长期不定时更新，欢迎手表和叉子！涉及内容包括但不限于：中英文敏感词，语言检测，中外手机/电话归属地/运营商查询，名字，名称，性别，手机号撤回，身份证删除，邮箱删除，中日文人名库，中文缩写库，拆字字典，词汇情感值，替
所属分类：其它
- 发布日期：2021-02-09
- 文件大小：72351744
- 提供者：weixin_42139460

albert_zh：用于自我监督学习语言表示的精简BERT，海量中文预训练ALBERT模型-源码
albert_zh 使用TensorFlow实现的实现 ALBert基于Bert，但有一些改进。它以30％的参数减少，可在主要基准上达到最先进的性能。对于albert_base_zh，它只有十个百分比参数与原始bert模型进行比较，并且保留了主要精度。现在已经提供了针对中文的ALBERT预训练模型的不同版本，包括TensorFlow，PyTorch和Keras。海量中文语料上预训练ALBERT模型：参数充分，效果更好。预训练小模型也能拿下13项NLP任务，ALBERT三大改造登顶G
所属分类：其它
- 发布日期：2021-02-06
- 文件大小：992256
- 提供者：weixin_42176827

Chinese-Chatbot-PyTorch-Implementation：在PyTorch中实现的另一个中文聊天机器人，它是智能工单处理机器人的子模块。 ‍:wrench:-源码
:four_leaf_clover:小智，又一个中文聊天机器人 :face_savoring_food: :sparkling_heart:利用有趣的中文语料库qingyun，由Doragd同学编写的中文聊天机器人 :snowman_without_snow: 尽管她不是那么完善 :flexed_biceps: ，不是那么出色 :paw_prints: 但她是由我自己编码出来的 :sparkling_heart: ，所以希望大家能够多多star支持 :white_medium_star:这个
所属分类：其它
- 发布日期：2021-02-05
- 文件大小：87031808
- 提供者：weixin_42181545

NLP工具：:face_savoring_food:本项目推进通过Tensorflow基于BiLSTM + CRF实现中文分词，词性标注，命名实体识别（NER）-源码
NLP工具本项目初步通过Tensorflow基于BiLSTM + CRF实现字符级序列标注模型。功能： 1，对未登录字（词）识别能力 2，Http接口 3，可快速实现分词，词性标注，NER，SRL等序列标注模型欢迎各位大佬吐槽。说明环境配置：创建新的conda环境 $ conda env create -f environment.yaml 语料处理不同标注语料格式不同，需要额外处理，在示例/DataPreprocessing.ipynb中提供了人民日报2014准备过程（该语料集
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：29696
- 提供者：weixin_42165018

Macropodus：自然语言处理工具Macropodus，基于Albert + BiLSTM + CRF深度学习网络架构，中文分词，词性标注，命名实体识别，新词发现，关键词，文本摘要，文本相似度，科学计算器，中文数字阿拉伯NLP的工具（工
Macropodus是一个以Albert + BiLSTM + CRF网络架构为基础，用大量中文语料训练的自然语言处理工具包。将提供中文分词，词性标注，命名实体识别，关键词提取，文本摘要，新词发现，文本相似度，计算器，数字转换，拼音转换，繁简转换等常见的NLP功能。目录安装注意事项默认不安装nlg-yongzhuo, 如果需要该功能自行安装; 默认不指定numpy, pandas, scikit-learn版本, 过高或者过低的版本可能不支持标准版本的依赖包详见 requirements
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：5242880
- 提供者：weixin_42112685

« 12 »