点数信息
www.dssz.net
注册会员
|
设为首页
|
加入收藏夹
您好,欢迎光临本网站!
[请登录]
!
[注册会员]
!
首页
移动开发
云计算
大数据
数据库
游戏开发
人工智能
网络技术
区块链
操作系统
模糊查询
热门搜索:
源码
Android
整站
插件
识别
p2p
游戏
算法
更多...
在线客服QQ:632832888
当前位置:
资源下载
搜索资源 - 分词语料库
下载资源分类
移动开发
开发技术
课程资源
网络技术
操作系统
安全技术
数据库
行业
服务器应用
存储
信息化
考试认证
云计算
大数据
跨平台
音视频
游戏开发
人工智能
区块链
在结果中搜索
所属系统
Windows
Linux
FreeBSD
Unix
Dos
PalmOS
WinCE
SymbianOS
MacOS
Android
开发平台
Visual C
Visual.Net
Borland C
CBuilder
Dephi
gcc
VBA
LISP
IDL
VHDL
Matlab
MathCAD
Flash
Xcode
Android STU
LabVIEW
开发语言
C/C++
Pascal
ASM
Java
PHP
Basic/ASP
Perl
Python
VBScript
JavaScript
SQL
FoxBase
SHELL
E语言
OC/Swift
文件类型
源码
程序
CHM
PDF
PPT
WORD
Excel
Access
HTML
Text
资源分类
搜索资源列表
基于后缀数组分词 不需要词典和语料库
基于后缀数组的分词,是不需要词典和语料库。通过后缀数组和散列表获得汉字结合模式。
所属分类:
专业指导
发布日期:2009-05-28
文件大小:11264
提供者:
yidouyifly
sogou语料库 迷你版本
sogou 预料库的迷你版本,可用于中文分词的测试,就是一个训练集
所属分类:
Java
发布日期:2009-06-05
文件大小:169984
提供者:
chang84629
搜狗最新文本分类语料库
搜狗最新文本分类语料库,对于研究中文分词的有帮助
所属分类:
专业指导
发布日期:2009-06-09
文件大小:169984
提供者:
yuanzhen84
人民日报(北大)语料库
分词训练语料库,仅供学习和研究使用,禁止用于商业行为
所属分类:
专业指导
发布日期:2009-10-31
文件大小:8388608
提供者:
xufengye256
中文词库素材词汇量超过10万+语料库
中文词库素材词汇量超过10万+语料库,语料库包含200个已分类的语料。是以前做分本分类搜集来的,供从事这方面的朋友学习借鉴
所属分类:
专业指导
发布日期:2010-03-19
文件大小:2097152
提供者:
daxuea
用于分词和命名实体识别的人民日报语料库
标准的分词语料库,也可用作命名实体识别。
所属分类:
C++
发布日期:2010-04-15
文件大小:2097152
提供者:
snowpku002
LJCorpus中文语料库分析软件
LJCorpus试用版本下载地址 下载地址:http://www.lingjoin.com/download/LJCorpus.rar 介绍: LJCorpus中文语料库分析软件是一套专门针对中文生语料库的加工、抽取、统计与翻译全自动的综合语料分析系统,应用了领先的汉语词法分析技术、新词发现技术、统计挖掘技术以及词语翻译对齐技术,目前,东北师范大学中文系已经成功应用该软件对新加坡的语言进行了分析,极大提高了研究的效率。 LJCorpus中文语料库分析软件的四大功能主要包括: 1. 新词发现:
所属分类:
专业指导
发布日期:2010-04-17
文件大小:12582912
提供者:
lingjoin
已预处理 NLP 英文语料库 新闻组 20_Newsgroup(单标签英文平衡语料)
已做预处理:分词、剔除停用词 可直接拿来统计建立文本模型
所属分类:
专业指导
发布日期:2010-08-26
文件大小:6291456
提供者:
djlhoho
中文分词十年回顾 自动分词系统
过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进 步。其主要表现为:(1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定 义,这是实现计算机自动分词和可比评测的基础;(2)实践证明,基于手工规则的分词系统在评测中不敌基于统计 学习的分词系统;(3)在Bakeoff数据上的评估结果表明,未登录词造成的分词精度失落至少比分词歧义大5倍以 上;(4)实验证明,能够大幅度提高未登录词识别性能的字标注统计学习方法优于
所属分类:
其它
发布日期:2011-04-10
文件大小:1048576
提供者:
lwccb
c++汉语分词程序简单实用
基于c++编写的分词程序,可以选择自己语料库和自己的分词内容
所属分类:
C++
发布日期:2011-04-17
文件大小:334848
提供者:
hu214028595
体育相关语料库
分了26类的体育语料,包括棒球 帆船 击剑 举重 篮球 垒球 马术 排球 皮划艇 乒乓球 曲棍球 拳击 柔道 赛艇 射击 射箭 手球 摔跤 跆拳道 体操 田径 网球 游泳 羽毛球 自行车 足球等领域,在每个文件夹中的all.txt文件已经分词处理,可用于自然语言处理
所属分类:
专业指导
发布日期:2008-04-24
文件大小:8388608
提供者:
wuguiasdf
中文分词的正向和反向最大匹配算法
在一个已经语料库的基础上,进行词频统计,然后根据统计的词用正向和反向最大匹配算法进行中文分词。
所属分类:
C/C++
发布日期:2013-11-25
文件大小:3145728
提供者:
u012029576
中文分析算法语料库
该ppt为中文分析算法的语料库和词典结构简介
所属分类:
其它
发布日期:2013-12-04
文件大小:288768
提供者:
tianshixin115
微软亚洲研究院中文分词语料库
微软亚洲研究院中文分词语料库,研究中文分词,研究中文分词
所属分类:
其它
发布日期:2015-01-21
文件大小:4194304
提供者:
honeybee1981
复旦大学分词语料库
复旦大学分词语料库
所属分类:
其它
发布日期:2017-04-22
文件大小:52428800
提供者:
zhangge360
香港城市大学语料库;微软亚洲研究院语料库;北京大学语料库;
香港城市大学语料库(1 772 202 字,训练集)、微软亚洲研究院语料库(1 089 050 字,训练集)、北京大学语料库(1 833 177 字,训练集)
所属分类:
其它
发布日期:2017-06-14
文件大小:42991616
提供者:
u010105243
中文分词入门与字标注法
作为中文信息处理的“桥头堡”,中文分词在国内的关注度似乎远远超过了自然语言处理的其他研究领域。在中文分词中,资源的重要性又不言而喻,最大匹配法等需要一个好的词表,而基于字标注的中文分词方法又需要人工加工好的分词语料库。所以想研究中文分词,第一步需要解决的就是资源问题,这里曾经介绍过“LDC上免费的中文信息处理资源”,其中包括一个有频率统计的词表,共计44405条,就可以作为一个不错的中文分词词表使用。而一个好的人工分词语料库,需要很大的人力物力投入,所以无论研究还是商用往往需要一定的费用购买,
所属分类:
深度学习
发布日期:2017-12-14
文件大小:251904
提供者:
u011563494
微软亚洲研究院中文分词语料_icwb2-data
微软亚洲研究院中文分词语料库_自然语言处理_科研数据集
所属分类:
机器学习
发布日期:2018-04-09
文件大小:41943040
提供者:
crdxg
汉语分词语料库
CTB6汉语分词语料库,可以拿来做分词任务。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
所属分类:
深度学习
发布日期:2018-05-23
文件大小:6291456
提供者:
github_35422257
人民日报语料库(中文分词语料库)
人民日报1998年1月份的语料库,加入了词性标注,北京大学开发,中文分词统计的好资料 人民日报1998年1月份的语料库,加入了词性标注,北京大学开发,中文分词统计的好资料
所属分类:
专业指导
发布日期:2020-09-08
文件大小:2097152
提供者:
starmoonh
«
1
2
3
4
5
6
7
»