开发工具:
文件大小: 203kb
下载次数: 0
上传时间: 2017-08-18
详细说明: 盘古分词可以根据词频来解决分词的歧义题目 多元分词 盘古分词提供多重输入解决分词粒度和分词精度衡量的问题 详见eaglet/archive/2008/10/02/.html 中文人名识别 输入:“张三说切实其实实在理” 分词了局:张三/说/的/确实/在理/ 输入“李三买了一张三角桌子” 分词结果:李三/买/了/一张/三角/桌子/ 详见eaglet/archive/2009/08/19/.html 强逼一元分词 输入“张三说的确实在理” 分词结果:中文。张(0,1)/张三(0,5)/三说的(1,1)/三(1,1)/说(2 ,5)/的(3,5)/确(4,1)/确实(4,5)/实(5,1)/在(6,1)/在理(6,5)/理(7,1)/ 繁体中文分词 输入"我的選擇" 分词结果:看看中文。我/的/選擇/ 同时输出简体和繁体 输入"我的選擇" 分词结果:学会分词。我(0,5)/的(1,5)/拔取(2,1)/選擇(2,5)/ 中文词性输出 盘古分词可以将以登录词的中文词性输出给用户,以轻易用户做进一步办理。 全角字符维持 盘古分词可以识别全角的字母和数字 英文分词 英文分词 英文单词平凡都是靠空格等符号盘据,这个斗劲简单,学会中文。盘古分词分英文天然也没有什么问题。 英文公用词识别 一些英文简写是字母符号混合,或许是字母数字混合,这个分词起来就不能遵从空格符号这样分割了,对待字母符号混合的如U.S.A,只消将这个词录入到字典中,中文。盘古分词就可以分出整词。对于字母和数字混合的,盘古分词会自举动为整词输出。 英文原词输出(后续版本提供) 英文大大写同时输出(后续版本提供) 其他功能 停用词过滤 对于一些标点符号,连词,你看中文。助词等有功夫须要在分词时过滤掉,盘古分词提供一个StopWord.txt文件,用户只要将需要过滤的词插足到这个文件中,并将停用词过滤启迪掀开,就可以过滤掉这些词。 设置分词权值 盘古分词可以让用户对如下特性设置自定义权值 未登录词权值 最完婚词权值 次匹配词权值 再次匹配词权值 强行输出的单字的权值 数字的权值 英文词汇权值 符号的权值 强制同时输出简繁汉字时,对比一下中文。非原先文本的汉字输出权值。c。 字典管理 盘古分词提供一个字典管理工具DictManage议决这个工具,你可以添补,窜改,和删除字典中的单词 静态加载字典 通过字典工具增加,修改,2。和删除字典中的单词后,维系字典,事实上中文。盘古分词会自动将新的字典文件加载进去,而不需要重新发动。 关键词高亮组件 Lucene提供了一个关键词高亮组件,但这个组件对中文的支持不是出格好,特别是假若还有多元分词的境况,词组。处理的就更不好。盘古分词提供了一个针对中文和英文的关键词高亮组件PanGu.HighLight,学会v。其对中文的支持要好于Lucene那个高亮组件。中文。 同义词输出(后续版本提供) 接口及示例 在PanGu4Lucene这个包内里有我做的一个盘古+Lucene的简单消息寻找Web示例法度圭臬, ...展开收缩
(系统自动生成,下载前可以参看下载内容)
下载文件列表
相关说明
- 本站资源为会员上传分享交流与学习,如有侵犯您的权益,请联系我们删除.
- 本站是交换下载平台,提供交流渠道,下载内容来自于网络,除下载问题外,其它问题请自行百度。
- 本站已设置防盗链,请勿用迅雷、QQ旋风等多线程下载软件下载资源,下载后用WinRAR最新版进行解压.
- 如果您发现内容无法下载,请稍后再次尝试;或者到消费记录里找到下载记录反馈给我们.
- 下载后发现下载的内容跟说明不相乎,请到消费记录里找到下载记录反馈给我们,经确认后退回积分.
- 如下载前有疑问,可以通过点击"提供者"的名字,查看对方的联系方式,联系对方咨询.