搜索资源 - 分词语料库 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 分词语料库

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

基于后缀数组分词不需要词典和语料库
基于后缀数组的分词，是不需要词典和语料库。通过后缀数组和散列表获得汉字结合模式。
所属分类：专业指导
- 发布日期：2009-05-28
- 文件大小：11264
- 提供者：yidouyifly

sogou语料库迷你版本
sogou 预料库的迷你版本，可用于中文分词的测试，就是一个训练集
所属分类：Java
- 发布日期：2009-06-05
- 文件大小：169984
- 提供者：chang84629

搜狗最新文本分类语料库
搜狗最新文本分类语料库，对于研究中文分词的有帮助
所属分类：专业指导
- 发布日期：2009-06-09
- 文件大小：169984
- 提供者：yuanzhen84

人民日报（北大）语料库
分词训练语料库，仅供学习和研究使用，禁止用于商业行为
所属分类：专业指导
- 发布日期：2009-10-31
- 文件大小：8388608
- 提供者：xufengye256

中文词库素材词汇量超过10万+语料库
中文词库素材词汇量超过10万+语料库，语料库包含200个已分类的语料。是以前做分本分类搜集来的，供从事这方面的朋友学习借鉴
所属分类：专业指导
- 发布日期：2010-03-19
- 文件大小：2097152
- 提供者：daxuea

用于分词和命名实体识别的人民日报语料库
标准的分词语料库，也可用作命名实体识别。
所属分类：C++
- 发布日期：2010-04-15
- 文件大小：2097152
- 提供者：snowpku002

LJCorpus中文语料库分析软件
LJCorpus试用版本下载地址下载地址：http://www.lingjoin.com/download/LJCorpus.rar 介绍： LJCorpus中文语料库分析软件是一套专门针对中文生语料库的加工、抽取、统计与翻译全自动的综合语料分析系统，应用了领先的汉语词法分析技术、新词发现技术、统计挖掘技术以及词语翻译对齐技术，目前，东北师范大学中文系已经成功应用该软件对新加坡的语言进行了分析，极大提高了研究的效率。 LJCorpus中文语料库分析软件的四大功能主要包括： 1. 新词发现：
所属分类：专业指导
- 发布日期：2010-04-17
- 文件大小：12582912
- 提供者：lingjoin

已预处理 NLP 英文语料库新闻组 20_Newsgroup(单标签英文平衡语料)
已做预处理：分词、剔除停用词可直接拿来统计建立文本模型
所属分类：专业指导
- 发布日期：2010-08-26
- 文件大小：6291456
- 提供者：djlhoho

中文分词十年回顾自动分词系统
过去的十年间，尤其是2003年国际中文分词评测活动Bakeoff开展以来，中文自动分词技术有了可喜的进步。其主要表现为：(1)通过“分词规范+词表+分词语料库”的方法，使中文词语在真实文本中得到了可计算的定义，这是实现计算机自动分词和可比评测的基础；(2)实践证明，基于手工规则的分词系统在评测中不敌基于统计学习的分词系统；(3)在Bakeoff数据上的评估结果表明，未登录词造成的分词精度失落至少比分词歧义大5倍以上；(4)实验证明，能够大幅度提高未登录词识别性能的字标注统计学习方法优于
所属分类：其它
- 发布日期：2011-04-10
- 文件大小：1048576
- 提供者：lwccb

c++汉语分词程序简单实用
基于c++编写的分词程序，可以选择自己语料库和自己的分词内容
所属分类：C++
- 发布日期：2011-04-17
- 文件大小：334848
- 提供者：hu214028595

体育相关语料库
分了26类的体育语料，包括棒球帆船击剑举重篮球垒球马术排球皮划艇乒乓球曲棍球拳击柔道赛艇射击射箭手球摔跤跆拳道体操田径网球游泳羽毛球自行车足球等领域，在每个文件夹中的all.txt文件已经分词处理，可用于自然语言处理
所属分类：专业指导
- 发布日期：2008-04-24
- 文件大小：8388608
- 提供者：wuguiasdf

中文分词的正向和反向最大匹配算法
在一个已经语料库的基础上，进行词频统计，然后根据统计的词用正向和反向最大匹配算法进行中文分词。
所属分类：C/C++
- 发布日期：2013-11-25
- 文件大小：3145728
- 提供者：u012029576

中文分析算法语料库
该ppt为中文分析算法的语料库和词典结构简介
所属分类：其它
- 发布日期：2013-12-04
- 文件大小：288768
- 提供者：tianshixin115

微软亚洲研究院中文分词语料库
微软亚洲研究院中文分词语料库,研究中文分词,研究中文分词
所属分类：其它
- 发布日期：2015-01-21
- 文件大小：4194304
- 提供者：honeybee1981

复旦大学分词语料库
复旦大学分词语料库
所属分类：其它
- 发布日期：2017-04-22
- 文件大小：52428800
- 提供者：zhangge360

香港城市大学语料库；微软亚洲研究院语料库；北京大学语料库；
香港城市大学语料库（1 772 202 字，训练集）、微软亚洲研究院语料库（1 089 050 字，训练集）、北京大学语料库（1 833 177 字，训练集）
所属分类：其它
- 发布日期：2017-06-14
- 文件大小：42991616
- 提供者：u010105243

中文分词入门与字标注法
作为中文信息处理的“桥头堡”，中文分词在国内的关注度似乎远远超过了自然语言处理的其他研究领域。在中文分词中，资源的重要性又不言而喻，最大匹配法等需要一个好的词表，而基于字标注的中文分词方法又需要人工加工好的分词语料库。所以想研究中文分词，第一步需要解决的就是资源问题，这里曾经介绍过“LDC上免费的中文信息处理资源”，其中包括一个有频率统计的词表，共计44405条，就可以作为一个不错的中文分词词表使用。而一个好的人工分词语料库，需要很大的人力物力投入，所以无论研究还是商用往往需要一定的费用购买，
所属分类：深度学习
- 发布日期：2017-12-14
- 文件大小：251904
- 提供者：u011563494

微软亚洲研究院中文分词语料_icwb2-data
微软亚洲研究院中文分词语料库_自然语言处理_科研数据集
所属分类：机器学习
- 发布日期：2018-04-09
- 文件大小：41943040
- 提供者：crdxg

汉语分词语料库
CTB6汉语分词语料库，可以拿来做分词任务。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
所属分类：深度学习
- 发布日期：2018-05-23
- 文件大小：6291456
- 提供者：github_35422257

人民日报语料库（中文分词语料库）
人民日报1998年1月份的语料库，加入了词性标注，北京大学开发，中文分词统计的好资料人民日报1998年1月份的语料库，加入了词性标注，北京大学开发，中文分词统计的好资料
所属分类：专业指导
- 发布日期：2020-09-08
- 文件大小：2097152
- 提供者：starmoonh

« 12 3 4 5 6 7 »