您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 中文分词的切分词典(词性标注,数据库为基础的文本分类检索过滤

  2. 用于中文分词的切分词典,还有词性标注,以这个词典数据库为基础建立文本分类,文本检索或文本过滤可以节省很多时间.很全,强烈推荐
  3. 所属分类:专业指导

    • 发布日期:2009-09-21
    • 文件大小:218112
    • 提供者:manuxiao
  1. 计算所汉语词法分析系统ICTCLAS

  2. 词是最小的能够独立活动的有意义的语言成分,但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词法分析是中文信息处理的基础与关键。为此,中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐马模型的汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结
  3. 所属分类:嵌入式

    • 发布日期:2007-11-25
    • 文件大小:2097152
    • 提供者:yanghuan6215
  1. KTDictSeg 1.2-简易分词系统

  2. 中文人名判断 正向匹配分词和反向匹配分词的选项 停用词过滤 词性标注
  3. 所属分类:C#

    • 发布日期:2007-12-18
    • 文件大小:1048576
    • 提供者:shirleygx
  1. 词性标注词典(Access数据库)

  2. 词性标注词典,Access数据库,中文信息处理课编写分词程序可以用到
  3. 所属分类:Access

    • 发布日期:2010-04-13
    • 文件大小:3145728
    • 提供者:li072529
  1. java 词性标注-自然语言处理

  2. 介绍了词性标注系统的设计与实现,描述了该系统的功能和总体结构,系统的各模块及其功能,系统所使用 的兼类词典、非兼类词典、词性标注集,最后对系统的总体性能进行测试并对测试结果进行了分析。
  3. 所属分类:专业指导

    • 发布日期:2011-05-15
    • 文件大小:677888
    • 提供者:mwzIT
  1. 汉语词法分析系统ICTCLAS2011

  2. 汉语词法分析系统ICTCLAS,主要功能包括中文分词;词性标注;命名实体识别;新词识别;用户词典功能,同时支持GBK编码、UTF8编码、BIG5编码。包括java,c,c#,linux 32位等各种接口
  3. 所属分类:其它

    • 发布日期:2011-12-23
    • 文件大小:5242880
    • 提供者:greatspider
  1. 自然语言处理中文词库(含词性)

  2. 用于自然语言理解课程,分词,词性标注使用的词典
  3. 所属分类:C/C++

    • 发布日期:2012-05-19
    • 文件大小:1006592
    • 提供者:linxuantoo
  1. 基于层叠隐马模型的汉语词法分析

  2. 提出了一种基于层叠隐马模型的汉语词法分析方法,旨在将汉语分词、词性标注、切分排歧和未登录词识别集 成到一个完整的理论框架中1在分词方面,采取的是基于类的隐马模型,在这层隐马模型中,未登录词和词典中收录的普 通词一样处理1未登录词识别引入了角色HMM:Viterbi算法标注出全局最优的角色序列,然后在角色序列的基础上,识 别出未登录词,并计算出真实的可信度1在切分排歧方面,提出了一种基于N2最短路径的策略,即:在早期阶段召回N 个最佳结果作为候选集,目的是覆盖尽可能多的歧义字段,最终的结果会在未
  3. 所属分类:其它

    • 发布日期:2012-09-23
    • 文件大小:202752
    • 提供者:qq7489451
  1. 北大汉语语法信息词典

  2. 用于自然语言处理,作为语料库使用,可用于分词,词性标注
  3. 所属分类:教育

    • 发布日期:2012-11-02
    • 文件大小:446464
    • 提供者:linxuantoo
  1. 中文分词器nlpir Java32位开发接口

  2. 需配合完整开发包使用,NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。 全球用户突破20万,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际SIGHAN分词大赛综合第一名,2002年国内973评测综合第一名。
  3. 所属分类:Java

    • 发布日期:2013-04-15
    • 文件大小:788480
    • 提供者:wskings
  1. 360万中文词库+词性+词频

  2. 360万中文词库+词性+词频词典结构为:词语\t词性\t词频。 词频是用ansj分词对270G新闻语料进行分词统计词频获得。 本人感觉需要特别说明的是词典整理过程中存在部分词汇无法确定是什么词性,对词性进行特别标注:nw和comb 1、词性nw表示本身不知道是什么词性。 2、词性comb表示通过ansj的nlp分词之后又被拆成了两个词。
  3. 所属分类:其它

    • 发布日期:2015-04-22
    • 文件大小:29360128
    • 提供者:xmp3x
  1. 带词性标注的中文分词词典

  2. 人民日报统计出来的用于自然语言处理的中文词典
  3. 所属分类:专业指导

    • 发布日期:2015-07-28
    • 文件大小:641024
    • 提供者:kylelight
  1. 有关词性标注的一点意见

  2. 如果翻阅整个词典,肯定会发现不少问题。但是正如吕叔湘先生生前所指出的,“做总比不做好。万事开头难,只要开了头,随着科学的发展和研究的深入,总有一天会完备起来的”。因此在汉语中型词典里给词标注词性,应当充分肯定。
  3. 所属分类:讲义

    • 发布日期:2016-02-18
    • 文件大小:18432
    • 提供者:u014677900
  1. 中文词性标注

  2. 中文词性标注的科普文章,小标记集。词性标注除了使用《现代汉语语法信息词典》中的26 个词类标记 (名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形 容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、 习用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,增加 了以下3 类标记:①专有名词的分类标记,即人名nr,地名ns,团体机关单位名称nt,其 他专有名词nz;②语素的子类标记,即名语素Ng,动语素V
  3. 所属分类:机器学习

    • 发布日期:2018-04-13
    • 文件大小:302080
    • 提供者:weixin_41808886
  1. 结巴分词(支持词性标注)

  2. 结巴分词早期版本。 * 结巴分词(java版) jieba-analysis 首先感谢jieba分词原作者[[https://github.com/fxsjy][fxsjy]],没有他的无私贡献,我们也不会结识到结巴 分词,更不会有现在的java版本。 结巴分词的原始版本为python编写,目前该项目在github上的关注量为170, 打星727次(最新的数据以原仓库为准),Fork238次,可以说已经有一定的用户群。 结巴分词(java版)只保留的原项目针对搜索引擎分词的功能(cut_for
  3. 所属分类:深度学习

    • 发布日期:2018-12-17
    • 文件大小:3145728
    • 提供者:qq_34859668
  1. 分词-词性标注-词典-中文语料库.zip

  2. 分类_分词12大类5485文本1127万_搜狗.20151022 各种词库 用语分词、词性标注等自然语言处理NLP任务
  3. 所属分类:机器学习

    • 发布日期:2019-05-23
    • 文件大小:8388608
    • 提供者:u010732327
  1. 哈萨克语词性自动标注研究初探

  2. 词性标注在很多信息处理环节中都扮演着关键角色。哈萨克语作为新疆地区通用的少数民族语言之一,自然语言处理中的一些基础性的课题同样成为迫切需要解决的问题。分析了哈萨克语的构形语素特征,基于词典的一级标注基础上,采用统计方法,训练得到二元语法的HMM模型参数,运用Viterbi算法完成了基于统计方法的词性标注,最后运用哈语规则库对词性标注进行了修正。对单纯使用统计方法和以统计为主辅以规则修正的方法进行了比对测试,结果表明后者排岐正确率有所提高。
  3. 所属分类:其它

    • 发布日期:2021-02-22
    • 文件大小:2097152
    • 提供者:weixin_38721119
  1. Jiayan:甲言,专注于古代汉语(古汉语古文文言文文言)处理的NLP工具包,支持文言词库合成,分词,词性标注,断句和标点。Jiayan是为古典汉语设计的工具包,支持词典构建。 ,标记,POS标记,句子分段和标点符号-源码

  2. 甲言Jiayan 简介 甲言,取“Oracle言”之意,是一种专注于古汉语处理的NLP工具包。目前通用的汉语NLP工具均以现代汉语为核心语料,对古代汉语的处理效果很差(详见)。本项目的初衷,便是辅助古汉语信息处理,帮助有志于挖掘古文化矿藏的古汉语学者,爱好者等更好的地分析和利用文言资料,从“文化遗产”中创造出“文化新产”。当前版本支持,,,和五项功能,更多功能正在开发中。 功能 利用无监督的双,以及左右进行文言词库自动生成。 利用无监督,无词典的和进行古汉语自动分词。 利用词库合成功能产生的文言
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:222208
    • 提供者:weixin_42137022
  1. xmnlp:小明NLP:提供中文分词,词性标注,拼写检查,文本转拼音,情感分析,文本摘要,偏旁部首-源码

  2. / xmnlp / 小明NLP —轻量级中文自然语言处理工具 轻量级中文自然语言处理工具包 v 0.2.3 RIP 0.2.3版是xmnlp最后一个兼容Python 2.7的版本 功能概览 中文分词和词性标注 支持繁体 支持自定义词典 中文拼写检查 文本摘要&关键词提取 情感分析 文本转拼音 获取汉字偏旁部首 安装使用 安装方式 方式一 pip install xmnlp 方式二 git clone https://github.com/SeanLee97/xmnlp.git cd /path
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:24117248
    • 提供者:weixin_42178963
  1. ansj_seg:ansj分词.ict的真正的Java实现。分词效果速度都超过了开源版的ict。中文分词,人名识别,词性标注,用户自定义词典-源码

  2. Ansj中文分词 使用帮助 开发文档: , 摘要 这是一个基于n-Gram + CRF + HMM的中文分词的java实现。 分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上。 目前实现了中文分词,中文姓名识别,用户自定义词典,关键字提取,自动摘要,关键字标记等功能。 可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目。 专家 org.ansj ansj_seg
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:25165824
    • 提供者:weixin_42102401
« 12 3 4 5 »