搜索资源 - 分词评测 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 分词评测

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

分词评测工具(bakeoff08)
bakeoff08评测系统, 可以对中文分词, 命名实体识别, 词性标注进行评测
所属分类：其它
- 发布日期：2009-12-08
- 文件大小：5242880
- 提供者：kuidi

中英文分词算法KTDictSeg
* KTDictSeg 简介: KTDictSeg 是由KaiToo搜索开发的一款基于字典的简单中英文分词算法 * 主要功能: 中英文分词，未登录词识别,多元歧义自动识别,全角字符识别能力 * 主要性能指标: * 分词准确度:90%以上(有待专家的权威评测) * 处理速度: 600KBytes/s
所属分类：其它
- 发布日期：2010-02-20
- 文件大小：1039360
- 提供者：naughty610

KTDictSeg分词系统V1.3.01
* KTDictSeg 简介: KTDictSeg 是由KaiToo搜索开发的一款基于字典的简单中英文分词算法 * 主要功能: 中英文分词，未登录词识别,多元歧义自动识别,全角字符识别能力 * 主要性能指标: * 分词准确度:90%以上(有待专家的权威评测) 代码采用 Visual Studio 2005 编译通过，需在.net framework 2.0 下运行
所属分类：其它
- 发布日期：2010-04-27
- 文件大小：2097152
- 提供者：kang2004wei

中科院中文分词ictclaszyfc-v2009.zip
一、ICTCLAS简介　　中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所在多年研究工作积累的基础上，研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)，主要功能包括中文分词；词性标注；命名实体识别；新词识别；同时支持用户词典。我们先后精心打造五年，内核升级6次，目前已经升级到了ICTCLAS3.0。ICTCLAS3.0分词速度单机996KB/s，分词精
所属分类：嵌入式
- 发布日期：2010-07-19
- 文件大小：11534336
- 提供者：hanmeiaoxue123456

极速分词免费Windows版
极速分词：又快又好的中文分词引擎中文分词是互联网应用不可缺少的基础技术之一，也是其他语音和语言产品必不可少的技术组件。经过连续多届国际中文分词评测，由字构词的分词方法获得了压倒性优势，极速分词采用由字构词技术路线，同时优化了分词速度，使得极速分词引擎具备了分词速度快和分词精度高的双重优势。免费版性能指标分词速度：350万字每秒，该速度远远超过目前利用模型（如马尔科夫模型）进行分词的速度分词精度：免费版仅仅使用200万字语料训练分词知识库，分词精度在95%左右，测试表明在保持速度的同时
所属分类：3G/移动开发
- 发布日期：2010-09-07
- 文件大小：12582912
- 提供者：langiner

基于CRFs 的中文分词和短文本分类技术.pdf
本文的工作主要包括两部分：第一部分，我们借用了文本分类领域的特征选择算法对中文分词中的特征进行分析。分析结果表明，特征选择算法在中文分词的任务中也是适用的。在中文分词领域，基于字标注的方法得到广泛应用。通过字标注系统，中文分词任务被转换为序列标注任务，许多成熟的机器学习算法得以应用。评测结果表明，在众多的机器学习算法中，基于CRFs的分词器可以达到state-of-the-art的分词效果。CRFs分词器对于给出的每一个切分，都可以提供置信度。在本文中，我们深入调研了CRFs提供的置信度，在此
所属分类：其它
- 发布日期：2011-01-04
- 文件大小：1048576
- 提供者：chwbin

又好又快的极速分词2.0
极速分词免费Windows版 langiner@gmail.com 又快又好的中文分词引擎中文分词是互联网应用不可缺少的基础技术之一，也是其他语音和语言产品必不可少的技术组件。经过连续多届国际中文分词评测，由字构词的分词方法获得了压倒性优势，极速分词采用由字构词技术路线，同时优化了分词速度，使得极速分词引擎具备了分词速度快和分词精度高的双重优势。免费版性能指标分词速度：350-500万字每秒，该速度远远超过目前商用分词的速度分词精度：免费版仅仅使用200万字语料训练分词知识库，分词精
所属分类：C++
- 发布日期：2011-03-16
- 文件大小：11534336
- 提供者：langiner

中文分词十年回顾自动分词系统
过去的十年间，尤其是2003年国际中文分词评测活动Bakeoff开展以来，中文自动分词技术有了可喜的进步。其主要表现为：(1)通过“分词规范+词表+分词语料库”的方法，使中文词语在真实文本中得到了可计算的定义，这是实现计算机自动分词和可比评测的基础；(2)实践证明，基于手工规则的分词系统在评测中不敌基于统计学习的分词系统；(3)在Bakeoff数据上的评估结果表明，未登录词造成的分词精度失落至少比分词歧义大5倍以上；(4)实验证明，能够大幅度提高未登录词识别性能的字标注统计学习方法优于
所属分类：其它
- 发布日期：2011-04-10
- 文件大小：1048576
- 提供者：lwccb

ICTCLAS 中文分词组件 for Asp.net版
全球最受欢迎的汉语分词开源系统获得首届国际分词大赛综合排名第一，国家973评测第一名人名识别、地名识别、组织机构名识别支持行业词典、用户自定义词典多级词性标注关键词提取、指纹提取
所属分类：Web开发
- 发布日期：2011-12-10
- 文件大小：2097152
- 提供者：zfqok

Lucene的中文分词方法设计与实现
本文设计实现了一个中文分词模块，其主要研究目的在于寻找更为有效的中文词汇处理方法，提高全文检索系统的中文处理能力．整个模块基于当前最流行的搜索引擎架构 Lucene，实现了带有歧义消除功能的正向最大匹配算法．在系统评测方面，比较了该方法与现有方法的区别，对于如何构建一个高效的中文检索系统，提出了一种实现．关键词：中文分词；搜索引擎；Lucene；正向最大匹配
所属分类：Java
- 发布日期：2012-09-14
- 文件大小：356352
- 提供者：david__zhang

基于Lucene的中文分词方法设计与实现
本文设计实现了一个中文分词模块,其主要研究目的在于寻找更为有效的中文词汇处理方法,提高全文检索系统的中文处理能力. 整个模块基于当前最流行的搜索引擎架构 Lucene ,实现了带有歧义消除功能的正向最大匹配算法. 在系统评测方面,比较了该方法与现有方法的区别,对于如何构建一个高效的中文检索系统,提出了一种实现
所属分类：其它
- 发布日期：2012-12-26
- 文件大小：328704
- 提供者：zyddamon

NLPIR(ICTCLAS2013)中文分词
张华平博士正式发布ICTCLAS2013 版本，为了与以前工作进行大的区隔，并推广NLPIR自然语言处理与信息检索共享平台，从本版本开始，系统名称调整为NLPIR汉语分词系统。张博士先后倾力打造十余年，内核升级10次，全球用户突破20万，先后获得了2010年钱伟长中文信息处理科学技术奖一等奖，2003年国际SIGHAN分词大赛综合第一名，2002年国内973评测综合第一名。 NLPIR汉语分词系统（又名ICTCLAS2013），主要功能包括中文分词；词性标注；命名实体识别；用户词典功能；支持G
所属分类：其它
- 发布日期：2013-03-17
- 文件大小：7340032
- 提供者：lankelan

中文分词器nlpir Java32位开发接口
需配合完整开发包使用，NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词；词性标注；命名实体识别；用户词典功能；支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取；张华平博士先后倾力打造十余年，内核升级10次。全球用户突破20万，先后获得了2010年钱伟长中文信息处理科学技术奖一等奖，2003年国际SIGHAN分词大赛综合第一名，2002年国内973评测综合第一名。
所属分类：Java
- 发布日期：2013-04-15
- 文件大小：788480
- 提供者：wskings

pscws23-20081221.tar.bz2【中文分词】
php中文分词 ===== PSCWS23 - 说明文档 ===== $Id: readme.txt,v 1.3 2008/12/21 04:37:59 hightman Exp $ [ 关于 PSCWS23 ] PSCWS23 是由 hightman 于 2006 年开发的纯 PHP 代码实现的简易中文分词系统第二和第三版的简称。 PSCWS 是英文 PHP Simple Chinese Words Segmentation 的头字母缩写，它是 SCWS 项目的前身。现 SCWS 已作为
所属分类：PHP
- 发布日期：2013-09-08
- 文件大小：2097152
- 提供者：yao__shun__yu

中分分词与分词性能评测代码及详细设计文档
通过本资源了解中文分词的意义，在实现正向、逆向最大匹配分词算法的过程中，加深对自然语言理解原理的探讨兴趣。本资源内含详细的代码设计分档、测试语料、源代码以及多个自己制作的语料库词典，分别实现了正、逆向最大匹配中文分词，并且设计了算法对分词效果进行了详细的评测，可以对大作业乃至毕业设计提供巨大的帮助.
所属分类：C++
- 发布日期：2014-06-09
- 文件大小：4194304
- 提供者：u014132695

分词系统NLPIR2013
NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词；词性标注；命名实体识别；用户词典功能；支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取；张华平博士先后倾力打造十余年，内核升级10次。全球用户突破20万，先后获得了2010年钱伟长中文信息处理科学技术奖一等奖，2003年国际SIGHAN分词大赛综合第一名，2002年国内973评测综合第一名。
所属分类：Java
- 发布日期：2014-07-13
- 文件大小：7340032
- 提供者：qq_15192337

中文分词入门与字标注法
作为中文信息处理的“桥头堡”，中文分词在国内的关注度似乎远远超过了自然语言处理的其他研究领域。在中文分词中，资源的重要性又不言而喻，最大匹配法等需要一个好的词表，而基于字标注的中文分词方法又需要人工加工好的分词语料库。所以想研究中文分词，第一步需要解决的就是资源问题，这里曾经介绍过“LDC上免费的中文信息处理资源”，其中包括一个有频率统计的词表，共计44405条，就可以作为一个不错的中文分词词表使用。而一个好的人工分词语料库，需要很大的人力物力投入，所以无论研究还是商用往往需要一定的费用购买，
所属分类：深度学习
- 发布日期：2017-12-14
- 文件大小：251904
- 提供者：u011563494

KTDictSeg 中英文分词组件
KTDictSeg 简介: KTDictSeg 是由KaiToo搜索开发的一款基于字典的简单中英文分词算法主要功能: 中英文分词，未登录词识别,多元歧义自动识别,全角字符识别能力主要性能指标:分词准确度:90%以上(有待专家的权威评测)处理速度: 600KBytes/s 版本: V1.0 BataCopyright(c) 2007 http://www.kaitoo.com 作者:肖波授权: 开源GPL公司网站: http://www.kaitoo.com
所属分类：C
- 发布日期：2007-05-24
- 文件大小：1039360
- 提供者：xiongfenghust

国际中文分词评测活动 Bakeoff
国际中文分词评测活动 Bakeoff-2006 会议研讨会记录，包含各参赛队的论文。。
所属分类：专业指导
- 发布日期：2010-11-26
- 文件大小：10485760
- 提供者：yoyo_seu

MLWS2017中藏文分词评测的技术报告
MLWS2017中藏文分词评测的技术报告
所属分类：其它
- 发布日期：2021-03-09
- 文件大小：1048576
- 提供者：weixin_38508497

« 12 »