点数信息
www.dssz.net
注册会员
|
设为首页
|
加入收藏夹
您好,欢迎光临本网站!
[请登录]
!
[注册会员]
!
首页
移动开发
云计算
大数据
数据库
游戏开发
人工智能
网络技术
区块链
操作系统
模糊查询
热门搜索:
源码
Android
整站
插件
识别
p2p
游戏
算法
更多...
在线客服QQ:632832888
当前位置:
资源下载
搜索资源 - 中文分词语料
下载资源分类
移动开发
开发技术
课程资源
网络技术
操作系统
安全技术
数据库
行业
服务器应用
存储
信息化
考试认证
云计算
大数据
跨平台
音视频
游戏开发
人工智能
区块链
在结果中搜索
所属系统
Windows
Linux
FreeBSD
Unix
Dos
PalmOS
WinCE
SymbianOS
MacOS
Android
开发平台
Visual C
Visual.Net
Borland C
CBuilder
Dephi
gcc
VBA
LISP
IDL
VHDL
Matlab
MathCAD
Flash
Xcode
Android STU
LabVIEW
开发语言
C/C++
Pascal
ASM
Java
PHP
Basic/ASP
Perl
Python
VBScript
JavaScript
SQL
FoxBase
SHELL
E语言
OC/Swift
文件类型
源码
程序
CHM
PDF
PPT
WORD
Excel
Access
HTML
Text
资源分类
搜索资源列表
perl实现中文分词-双向扫描法找出歧义段-n元语法概率模型消歧
perl实现中文分词 先双向扫描法找出歧义段 再n元语法概率模型消歧 1998年人民日报语料下F1值达94%
所属分类:
Perl
发布日期:2009-05-27
文件大小:7168
提供者:
heycinderella
中文分词十年回顾 自动分词系统
过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进 步。其主要表现为:(1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定 义,这是实现计算机自动分词和可比评测的基础;(2)实践证明,基于手工规则的分词系统在评测中不敌基于统计 学习的分词系统;(3)在Bakeoff数据上的评估结果表明,未登录词造成的分词精度失落至少比分词歧义大5倍以 上;(4)实验证明,能够大幅度提高未登录词识别性能的字标注统计学习方法优于
所属分类:
其它
发布日期:2011-04-10
文件大小:1048576
提供者:
lwccb
中文分词的正向和反向最大匹配算法
在一个已经语料库的基础上,进行词频统计,然后根据统计的词用正向和反向最大匹配算法进行中文分词。
所属分类:
C/C++
发布日期:2013-11-25
文件大小:3145728
提供者:
u012029576
1998年人民日报分词语料
最权威的中文文本分词语料 可用于文本分词 分词语句达20万句
所属分类:
专业指导
发布日期:2008-10-06
文件大小:12582912
提供者:
zxlxstly
北京大学28288句分词语料
非常权威的北京大学分词语料 可用于大规模的中文文本分词
所属分类:
专业指导
发布日期:2008-10-07
文件大小:1048576
提供者:
zxlxstly
微软亚洲研究院中文分词语料库
微软亚洲研究院中文分词语料库,研究中文分词,研究中文分词
所属分类:
其它
发布日期:2015-01-21
文件大小:4194304
提供者:
honeybee1981
中文分词入门与字标注法
作为中文信息处理的“桥头堡”,中文分词在国内的关注度似乎远远超过了自然语言处理的其他研究领域。在中文分词中,资源的重要性又不言而喻,最大匹配法等需要一个好的词表,而基于字标注的中文分词方法又需要人工加工好的分词语料库。所以想研究中文分词,第一步需要解决的就是资源问题,这里曾经介绍过“LDC上免费的中文信息处理资源”,其中包括一个有频率统计的词表,共计44405条,就可以作为一个不错的中文分词词表使用。而一个好的人工分词语料库,需要很大的人力物力投入,所以无论研究还是商用往往需要一定的费用购买,
所属分类:
深度学习
发布日期:2017-12-14
文件大小:251904
提供者:
u011563494
中文分词及词性标注语料
中文分词及词性标注语料,包含微软亚研院、搜狗、北京大学等的语料库
所属分类:
机器学习
发布日期:2017-12-18
文件大小:41943040
提供者:
jklhj123
微软亚洲研究院中文分词语料_icwb2-data
微软亚洲研究院中文分词语料库_自然语言处理_科研数据集
所属分类:
机器学习
发布日期:2018-04-09
文件大小:41943040
提供者:
crdxg
中文自然语言处理中文分词训练语料
本次提供的中文汉语语料syj_trainCorpus_utf8.txt全网免费,转载需要注明出处,语料是作者通过爬取的短文本和网络上的预料处理、合并生成的。整个语料大小264M,包含1116903条数据,数据用空格隔开,可以用来训练分词模型。
所属分类:
机器学习
发布日期:2018-07-02
文件大小:113246208
提供者:
qq_36330643
微软亚洲研究院中文分词语料___icwb2-data
微软亚洲研究院中文分词语料_icwb2-data_自然语言处理_科研数据集
所属分类:
机器学习
发布日期:2018-10-11
文件大小:52428800
提供者:
spiritdjy
微软亚研的中文分词、词性标注和命名实体识别语料
微软亚研的中文分词、词性标注和命名实体识别语料,包括训练和验证集,xml格式,方便使用,机器学习、信息检索以及NLP领域的研究人员使用来训练模型
所属分类:
机器学习
发布日期:2018-10-17
文件大小:4194304
提供者:
u010732327
北京大学28288句分词语料
北京大学28288句分词语料,适用于中文分词
所属分类:
专业指导
发布日期:2010-01-25
文件大小:1048576
提供者:
leo_miaos
1998年人民日报分词语料
1998年人民日报分词语料,详尽的中文分词语料,适用于各种中文分词应用
所属分类:
专业指导
发布日期:2010-01-25
文件大小:12582912
提供者:
leo_miaos
语料库自然标注信息与中文分词应用研究(英文)
以中文分词为应用目标,将大规模语料库上存在的自然标注信息分为显性标注信息与隐性标注信息,分别考察了它们的分布和对大数据集上语言计算的影响。结果表明,两者都直接或间接地表达了作者对语言的分割意志,因而对分词具有积极的影响。通过词语抽取测试,发现在缺乏丰富显性标注信息的文本中,来自语言固有规律的自然标注信息对字符串有着强大的分割性能。
所属分类:
其它
发布日期:2021-03-16
文件大小:1018880
提供者:
weixin_38550334
C#编写的ChineseSplitter中文分词系统源代码
简介 ChineseSplitter中文分词系统集成了单字(一元切分)、双字(二元切分)、词义切分等分词方法。提供很好的权重计算办法。类结构 BaseSplitter(分词基类) │ ├─SingleSplitter(一元切分) │ ├─DoubleSplitter(二元切分) │ └─DefaultSplitter(词义切分)────NICTCLAS(中科院分词系统) KeywordsSort(关键字排序类) 不错的中文分词组件,带了语料库。
所属分类:
其它
发布日期:2021-03-16
文件大小:2097152
提供者:
weixin_38558870
Segmentor:使用北大-富士通语料库,LSTM网络的中文分词系统-源码
分割器 使用北大-富士通语料库,LSTM网络的中文分词系统 在书面语中分词效果不错。 “十三五”规划中规模:到2020年中国公民的科学素质要达到10%以上这个目标。之所以设定10%的目标,是因为一个国家想要进入创新型国家行列,公众具有较高的科学素质的比例至少达到10%。 “十三五”规划中的重点目标:到2020年中国公民的科学素质要达到10%以上这个目标。之所以设定10%的目标,是因为一个国家想要进入创新型国家行列,公众具有较早的科学素质的比例至少达到10%。
所属分类:
其它
发布日期:2021-03-11
文件大小:117440512
提供者:
weixin_42161497
用于临床文本的细粒度中文分词和词性标注语料库
用于临床文本的细粒度中文分词和词性标注语料库
所属分类:
其它
发布日期:2021-03-02
文件大小:506880
提供者:
weixin_38601390
中文分词中一种聊天语料库的构建
中文分词中一种聊天语料库的构建
所属分类:
其它
发布日期:2021-02-26
文件大小:176128
提供者:
weixin_38698311
ID-CNN-CWS:源代码和论文“用于中文分词的迭代扩张卷积”的语料库-源码
ID-CNN-CWS 源代码和论文“用于中文分词的迭代膨胀卷积”的论文集。 它为CWS实现以下4种模型: 双LSTM 双LSTM-CRF 身份识别 ID-CNN-CRF 依存关系 Python> = 3.6 TensorFlow> = 1.2 同时支持CPU和GPU。 GPU训练速度提高了10倍。 制备 运行以下脚本以将语料库转换为TensorFlow数据集。 $ ./scr ipts/make.sh 训练与测试 快速开始 $ ./scr ipts/run.sh $d
所属分类:
其它
发布日期:2021-02-03
文件大小:28311552
提供者:
weixin_42109545
«
1
2
3
4
5
6
7
»