您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 分词评测工具(bakeoff08)

  2. bakeoff08评测系统, 可以对中文分词, 命名实体识别, 词性标注 进行评测
  3. 所属分类:其它

    • 发布日期:2009-12-08
    • 文件大小:5242880
    • 提供者:kuidi
  1. 中英文分词算法KTDictSeg

  2. * KTDictSeg 简介: KTDictSeg 是由KaiToo搜索开发的一款基于字典的简单中英文分词算法 * 主要功能: 中英文分词,未登录词识别,多元歧义自动识别,全角字符识别能力 * 主要性能指标: * 分词准确度:90%以上(有待专家的权威评测) * 处理速度: 600KBytes/s
  3. 所属分类:其它

    • 发布日期:2010-02-20
    • 文件大小:1039360
    • 提供者:naughty610
  1. KTDictSeg分词系统V1.3.01

  2. * KTDictSeg 简介: KTDictSeg 是由KaiToo搜索开发的一款基于字典的简单中英文分词算法 * 主要功能: 中英文分词,未登录词识别,多元歧义自动识别,全角字符识别能力 * 主要性能指标: * 分词准确度:90%以上(有待专家的权威评测) 代码采用 Visual Studio 2005 编译通过,需在.net framework 2.0 下运行
  3. 所属分类:其它

    • 发布日期:2010-04-27
    • 文件大小:2097152
    • 提供者:kang2004wei
  1. 中科院中文分词ictclaszyfc-v2009.zip

  2. 一、ICTCLAS简介   中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。我们先后精心打造五年,内核升级6次,目前已经升级到了ICTCLAS3.0。ICTCLAS3.0分词速度单机996KB/s,分词精
  3. 所属分类:嵌入式

  1. 极速分词免费Windows版

  2. 极速分词:又快又好的中文分词引擎 中文分词是互联网应用不可缺少的基础技术之一,也是其他语音和语言产品必不可少的技术组件。 经过连续多届国际中文分词评测,由字构词的分词方法获得了压倒性优势,极速分词采用由字构词技术路线,同时优化了分词速度,使得极速分词引擎具备了分词速度快和分词精度高的双重优势。 免费版性能指标 分词速度:350万字每秒,该速度远远超过目前利用模型(如马尔科夫模型)进行分词的速度 分词精度:免费版仅仅使用200万字语料训练分词知识库,分词精度在95%左右,测试表明在保持速度的同时
  3. 所属分类:3G/移动开发

    • 发布日期:2010-09-07
    • 文件大小:12582912
    • 提供者:langiner
  1. 基于CRFs 的中文分词和短文本分类技术.pdf

  2. 本文的工作主要包括两部分:第一部分,我们借用了文本分类领域的特征选择算法对中文分词中的特征进行分析。分析结果表明,特征选择算法在中文分词的任务中也是适用的。在中文分词领域,基于字标注的方法得到广泛应用。通过字标注系统,中文分词任务被转换为序列标注任务,许多成熟的机器学习算法得以应用。评测结果表明,在众多的机器学习算法中,基于CRFs的分词器可以达到state-of-the-art的分词效果。CRFs分词器对于给出的每一个切分,都可以提供置信度。在本文中,我们深入调研了CRFs提供的置信度,在此
  3. 所属分类:其它

    • 发布日期:2011-01-04
    • 文件大小:1048576
    • 提供者:chwbin
  1. 又好又快的极速分词2.0

  2. 极速分词免费Windows版 langiner@gmail.com 又快又好的中文分词引擎 中文分词是互联网应用不可缺少的基础技术之一,也是其他语音和语言产品必不可少的技术组件。 经过连续多届国际中文分词评测,由字构词的分词方法获得了压倒性优势,极速分词采用由字构词技术路线,同时优化了分词速度,使得极速分词引擎具备了分词速度快和分词精度高的双重优势。 免费版性能指标 分词速度:350-500万字每秒,该速度远远超过目前商用分词的速度 分词精度:免费版仅仅使用200万字语料训练分词知识库,分词精
  3. 所属分类:C++

    • 发布日期:2011-03-16
    • 文件大小:11534336
    • 提供者:langiner
  1. 中文分词十年回顾 自动分词系统

  2. 过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进 步。其主要表现为:(1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定 义,这是实现计算机自动分词和可比评测的基础;(2)实践证明,基于手工规则的分词系统在评测中不敌基于统计 学习的分词系统;(3)在Bakeoff数据上的评估结果表明,未登录词造成的分词精度失落至少比分词歧义大5倍以 上;(4)实验证明,能够大幅度提高未登录词识别性能的字标注统计学习方法优于
  3. 所属分类:其它

    • 发布日期:2011-04-10
    • 文件大小:1048576
    • 提供者:lwccb
  1. ICTCLAS 中文分词组件 for Asp.net版

  2. 全球最受欢迎的汉语分词开源系统 获得首届国际分词大赛综合排名第一,国家973评测第一名 人名识别、地名识别、组织机构名识别 支持行业词典、用户自定义词典 多级词性标注 关键词提取、指纹提取
  3. 所属分类:Web开发

    • 发布日期:2011-12-10
    • 文件大小:2097152
    • 提供者:zfqok
  1. Lucene的中文分词方法设计与实现

  2. 本文设计实现了一个中文分词模块,其主要研究目的在于寻找更为有效的中文词汇 处理方法,提高全文检索系统的中文处理能力.整个模块基于当前最流行的搜索引擎架构 Lucene,实现了带有歧义消除功能的正向最大匹配算法.在系统评测方面,比较了该方法与现 有方法的区别,对于如何构建一个高效的中文检索系统,提出了一种实现. 关键词:中文分词;搜索引擎;Lucene;正向最大匹配
  3. 所属分类:Java

    • 发布日期:2012-09-14
    • 文件大小:356352
    • 提供者:david__zhang
  1. 基于Lucene的中文分词方法设计与实现

  2. 本文设计实现了一个中文分词模块,其主要研究目的在于寻找更为有效的中文词汇 处理方法,提高全文检索系统的中文处理能力. 整个模块基于当前最流行的搜索引擎架构 Lucene ,实现了带有歧义消除功能的正向最大匹配算法. 在系统评测方面,比较了该方法与现 有方法的区别,对于如何构建一个高效的中文检索系统,提出了一种实现
  3. 所属分类:其它

    • 发布日期:2012-12-26
    • 文件大小:328704
    • 提供者:zyddamon
  1. NLPIR(ICTCLAS2013)中文分词

  2. 张华平博士正式发布ICTCLAS2013 版本,为了与以前工作进行大的区隔,并推广NLPIR自然语言处理与信息检索共享平台,从本版本开始,系统名称调整为NLPIR汉语分词系统。张博士先后倾力打造十余年,内核升级10次,全球用户突破20万,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际SIGHAN分词大赛综合第一名,2002年国内973评测综合第一名。 NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持G
  3. 所属分类:其它

    • 发布日期:2013-03-17
    • 文件大小:7340032
    • 提供者:lankelan
  1. 中文分词器nlpir Java32位开发接口

  2. 需配合完整开发包使用,NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。 全球用户突破20万,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际SIGHAN分词大赛综合第一名,2002年国内973评测综合第一名。
  3. 所属分类:Java

    • 发布日期:2013-04-15
    • 文件大小:788480
    • 提供者:wskings
  1. pscws23-20081221.tar.bz2【中文分词】

  2. php中文分词 ===== PSCWS23 - 说明文档 ===== $Id: readme.txt,v 1.3 2008/12/21 04:37:59 hightman Exp $ [ 关于 PSCWS23 ] PSCWS23 是由 hightman 于 2006 年开发的纯 PHP 代码实现的简易中文分词系统第二和第三版的简称。 PSCWS 是英文 PHP Simple Chinese Words Segmentation 的头字母缩写,它是 SCWS 项目的前身。 现 SCWS 已作为
  3. 所属分类:PHP

    • 发布日期:2013-09-08
    • 文件大小:2097152
    • 提供者:yao__shun__yu
  1. 中分分词与分词性能评测代码及详细设计文档

  2. 通过本资源了解中文分词的意义,在实现正向、逆向最大匹配分词算法的过程中,加深对自然语言理解原理的探讨兴趣。本资源内含详细的代码设计分档、测试语料、源代码以及多个自己制作的语料库词典,分别实现了正、逆向最大匹配中文分词,并且设计了算法对分词效果进行了详细的评测,可以对大作业乃至毕业设计提供巨大的帮助.
  3. 所属分类:C++

    • 发布日期:2014-06-09
    • 文件大小:4194304
    • 提供者:u014132695
  1. 分词系统NLPIR2013

  2. NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。 全球用户突破20万,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际SIGHAN分词大赛综合第一名,2002年国内973评测综合第一名。
  3. 所属分类:Java

    • 发布日期:2014-07-13
    • 文件大小:7340032
    • 提供者:qq_15192337
  1. 中文分词入门与字标注法

  2. 作为中文信息处理的“桥头堡”,中文分词在国内的关注度似乎远远超过了自然语言处理的其他研究领域。在中文分词中,资源的重要性又不言而喻,最大匹配法等需要一个好的词表,而基于字标注的中文分词方法又需要人工加工好的分词语料库。所以想研究中文分词,第一步需要解决的就是资源问题,这里曾经介绍过“LDC上免费的中文信息处理资源”,其中包括一个有频率统计的词表,共计44405条,就可以作为一个不错的中文分词词表使用。而一个好的人工分词语料库,需要很大的人力物力投入,所以无论研究还是商用往往需要一定的费用购买,
  3. 所属分类:深度学习

    • 发布日期:2017-12-14
    • 文件大小:251904
    • 提供者:u011563494
  1. KTDictSeg 中英文分词组件

  2. KTDictSeg 简介: KTDictSeg 是由KaiToo搜索开发的一款基于字典的简单中英文分词算法主要功能: 中英文分词,未登录词识别,多元歧义自动识别,全角字符识别能力主要性能指标:分词准确度:90%以上(有待专家的权威评测)处理速度: 600KBytes/s 版本: V1.0 BataCopyright(c) 2007 http://www.kaitoo.com 作者:肖波授权: 开源GPL公司网站: http://www.kaitoo.com
  3. 所属分类:C

    • 发布日期:2007-05-24
    • 文件大小:1039360
    • 提供者:xiongfenghust
  1. 国际中文分词评测活动 Bakeoff

  2. 国际中文分词评测活动 Bakeoff-2006 会议研讨会记录,包含各参赛队的论文。。
  3. 所属分类:专业指导

    • 发布日期:2010-11-26
    • 文件大小:10485760
    • 提供者:yoyo_seu
  1. MLWS2017中藏文分词评测的技术报告

  2. MLWS2017中藏文分词评测的技术报告
  3. 所属分类:其它

    • 发布日期:2021-03-09
    • 文件大小:1048576
    • 提供者:weixin_38508497
« 12 »