您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. Yard中文分词系统V0.1.1版

  2. Yard中文分词系统采用改进了的正向最大匹配算法,利用双字哈希进行词典组织解决了中文分词中最长词带来的分词效率低下问题。 本次发布的版本为0.1.1版能对中文词组进行完美的切分同时利用词组的词频和词性解决了歧义划分的问题,但是对人名、地名、组织名、英文、数字等还不能进行很好的切分,在下一个版本中将解决这些问题。中文词典应用了搜狗实验室提供的互联网词库。纯java编写源码和词典在附件中可以下载。本软件为开源软件你可以进行任何修改以适应你的需求,如果你加入了新功能请发送一份副本给我,我们一同完善改
  3. 所属分类:其它

    • 发布日期:2009-06-16
    • 文件大小:1048576
    • 提供者:Soul_fly
  1. csw5.0中文分词组件

  2. 一、CSW中分词组件简介 CSW中文分词组件,是一套可自动将一段文本按常规汉语词组进行拆分,并以指定方式进行分隔的COM组件。本组件采用独有的高效的分词引擎及拆分算法,具有准确、高速、资源占用率小等特点。为了满足客户对文本语义进行研究分析的需要,本组件同时提供词性及词频标注功能,可根据用户要求,对其拆分后的词组进行词性标注或词频标注。互联网信息检索、数据库信息查询、智能聊天机器人、文本校对、自动翻译、 自动摘要、自动分类及信息加工处理等各个领域。 二、本组件特点: 1.适应性强 本组全部件采用
  3. 所属分类:C#

    • 发布日期:2009-09-01
    • 文件大小:3145728
    • 提供者:madl_lxj_163
  1. java实现的中文词性标注算法

  2. java语言实现的关于中文词性标注的问题,在Eclipse上通过编译,可运行。欢迎下载,并提出意见。
  3. 所属分类:Java

    • 发布日期:2010-01-15
    • 文件大小:677888
    • 提供者:TDreamer
  1. 1998人民日报切分语料-带有词性标注

  2. 1998人民日报切分语料-带有词性标注,用于词性标注
  3. 所属分类:C++

    • 发布日期:2010-03-07
    • 文件大小:8388608
    • 提供者:lichunwen1987
  1. ICTCLAS中文词法分析

  2. 中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。我们先后精心打造五年,内核升级6次,目前已经升级到了ICTCLAS3.0。ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过
  3. 所属分类:嵌入式

    • 发布日期:2010-03-10
    • 文件大小:6291456
    • 提供者:humanrights
  1. 词性标注词典(Access数据库)

  2. 词性标注词典,Access数据库,中文信息处理课编写分词程序可以用到
  3. 所属分类:Access

    • 发布日期:2010-04-13
    • 文件大小:3145728
    • 提供者:li072529
  1. LJCorpus中文语料库分析软件

  2. LJCorpus试用版本下载地址 下载地址:http://www.lingjoin.com/download/LJCorpus.rar 介绍: LJCorpus中文语料库分析软件是一套专门针对中文生语料库的加工、抽取、统计与翻译全自动的综合语料分析系统,应用了领先的汉语词法分析技术、新词发现技术、统计挖掘技术以及词语翻译对齐技术,目前,东北师范大学中文系已经成功应用该软件对新加坡的语言进行了分析,极大提高了研究的效率。 LJCorpus中文语料库分析软件的四大功能主要包括: 1. 新词发现:
  3. 所属分类:专业指导

    • 发布日期:2010-04-17
    • 文件大小:12582912
    • 提供者:lingjoin
  1. 中文自动分词&全文检索@统计工具(GBK版

  2. 本系统具备中文自动分词、全文检索、统计等基本功能,具体介绍如下: 1、中文自动分词 1)能对给定的中文文本进行自动分词、词性一级、词性二级标注; 2)支持大批量文本的自动分词及词性标注处理,可处理各级子文件夹下的文件; 3)能根据待分词及标注文本的类别,加挂用户自定义词典,进一步提高分词和标注的精确度; 4)用户可对系统词典进行扩展,可添加、删除、查看系统词典,可将系统词典输出为TXT文本编辑后再转换为系统用的电子词典; 5)支持人名、地名、机构名等未登录词识别,支持基于GBK字符集的简、繁体
  3. 所属分类:专业指导

    • 发布日期:2010-04-22
    • 文件大小:3145728
    • 提供者:lonewar
  1. 基于条件随机场_CRFs_的中文词性标注方法.caj

  2. 详细介绍了条件随机场下中文标注的方法,并与最大熵,马尔可夫模型下的标注做了对比
  3. 所属分类:专业指导

    • 发布日期:2010-05-04
    • 文件大小:196608
    • 提供者:marsdrafter
  1. ICTCLAS 中文分词

  2. 中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。我们先后精心打造五年,内核升级6次,目前已经升级到了ICTCLAS3.0。ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过
  3. 所属分类:嵌入式

    • 发布日期:2010-05-10
    • 文件大小:5242880
    • 提供者:GenesisBoy
  1. 基于条件随机场(CRFs)的中文词性标注方法

  2. 本文提出一种基于CRFs 模型的中文词性标注方法。该方法利用CRFs 模型能够添加任意特征的优点,在使用词的上下文信息的同时,针对兼类词和未登录词添加了新的统计特征。在《人民日报》1 月份语料库上进行的封闭测试和开放测试中,该方法的标注准确率分别为98. 56 %和96. 60 %。
  3. 所属分类:专业指导

    • 发布日期:2010-05-20
    • 文件大小:353280
    • 提供者:jiangtinghaha
  1. 中科院中文分词ictclaszyfc-v2009.zip

  2. 一、ICTCLAS简介   中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。我们先后精心打造五年,内核升级6次,目前已经升级到了ICTCLAS3.0。ICTCLAS3.0分词速度单机996KB/s,分词精
  3. 所属分类:嵌入式

  1. 可训练的中文分词和词性标注系统

  2. 采用机器学习的方法进行自然语言处理,对中文进行分词和词性标注。分词采用crf模型,词性标注用hmm模型,解码算法为Vertibi算法。本系统使用java语言编写
  3. 所属分类:其它

    • 发布日期:2010-12-26
    • 文件大小:1048576
    • 提供者:dark666666
  1. perl实现的中文词性标注

  2. perl实现的中文词性标注 读入按“中国/n 人民/n”方式分好词的文件训练 再读入分词文件测试 输出标好词性的文件
  3. 所属分类:Perl

    • 发布日期:2011-06-20
    • 文件大小:5120
    • 提供者:matrixgroup
  1. 中文词性标注源码

  2. 词性标注源码,我们的源码是用C++来实现的,主要是实现了隐马尔科夫模型和维特比算法。
  3. 所属分类:Java

    • 发布日期:2012-08-26
    • 文件大小:2097152
    • 提供者:qinhanxuanyu
  1. 中文词性标注学习训练算法

  2. 中文词性标注学习训练算法,绝对可以运行,具有极高的参考价值~
  3. 所属分类:Java

    • 发布日期:2014-03-27
    • 文件大小:816128
    • 提供者:emcoder
  1. 基于条件随机场_CRFs_的中文词性标注方法

  2. 本文提出一种基于 CRFs 模型的中文词性标注方法。该方法利用 CRFs 模型能够添加任意特征的优点 ,在使用词的上下文信息的同时 ,针对兼类词和未登录词添加了新 ...
  3. 所属分类:讲义

    • 发布日期:2016-02-18
    • 文件大小:264192
    • 提供者:u014677900
  1. 中文词性标注

  2. 中文词性标注的科普文章,小标记集。词性标注除了使用《现代汉语语法信息词典》中的26 个词类标记 (名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形 容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、 习用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,增加 了以下3 类标记:①专有名词的分类标记,即人名nr,地名ns,团体机关单位名称nt,其 他专有名词nz;②语素的子类标记,即名语素Ng,动语素V
  3. 所属分类:机器学习

    • 发布日期:2018-04-13
    • 文件大小:302080
    • 提供者:weixin_41808886
  1. 自然语言处理 中英文分词、词性标注与命名实体识别——文本和代码

  2. 中英文分词工具有很多,今天我们来使用Jieba、SnowNlp、nltk、thunlp、NLPIR、Stanford等六种工具来对给定中英文文本进行分词、词性标注与命名实体识别。
  3. 所属分类:Python

    • 发布日期:2019-05-24
    • 文件大小:7168
    • 提供者:godsolve
  1. 基于SVMTool的中文词性标注

  2. SVMTool是建立在支持向量机(SVM)原理上的序列标注工具,具有简单、灵活、高效的特点,可以融入大量的语言特征。该文将SVMTool应用于中文词性标注任务,将基于隐马尔科夫模型的基线系统准确率提升了2.07%。针对未登录词准确率不高的问题,该文加入了中文字、词的特征,包括构成汉字的部首特征和词重叠特征,并从理论上分析了这两个特征的可行性,实验显示加入这些特征后,未登录词标注的准确率提升了1.16%,平均错误率下降了7.40%。
  3. 所属分类:其它

    • 发布日期:2021-02-23
    • 文件大小:668672
    • 提供者:weixin_38644688
« 12 3 4 5 6 7 8 9 10 ... 15 »