点数信息
www.dssz.net
注册会员
|
设为首页
|
加入收藏夹
您好,欢迎光临本网站!
[请登录]
!
[注册会员]
!
首页
移动开发
云计算
大数据
数据库
游戏开发
人工智能
网络技术
区块链
操作系统
模糊查询
热门搜索:
源码
Android
整站
插件
识别
p2p
游戏
算法
更多...
在线客服QQ:632832888
当前位置:
资源下载
搜索资源 - 分词器;分词
下载资源分类
移动开发
开发技术
课程资源
网络技术
操作系统
安全技术
数据库
行业
服务器应用
存储
信息化
考试认证
云计算
大数据
跨平台
音视频
游戏开发
人工智能
区块链
在结果中搜索
所属系统
Windows
Linux
FreeBSD
Unix
Dos
PalmOS
WinCE
SymbianOS
MacOS
Android
开发平台
Visual C
Visual.Net
Borland C
CBuilder
Dephi
gcc
VBA
LISP
IDL
VHDL
Matlab
MathCAD
Flash
Xcode
Android STU
LabVIEW
开发语言
C/C++
Pascal
ASM
Java
PHP
Basic/ASP
Perl
Python
VBScript
JavaScript
SQL
FoxBase
SHELL
E语言
OC/Swift
文件类型
源码
程序
CHM
PDF
PPT
WORD
Excel
Access
HTML
Text
资源分类
搜索资源列表
IKAnalyzer 3.0 中文分词器
1.IKAnalyzer3.0介绍 IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer 已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0 则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。 1.2IKAnalyzer3.0特性 * 采用了特有的“正向迭代最细粒度切分
所属分类:
其它
发布日期:2009-07-21
文件大小:1048576
提供者:
linliangyi2006
java IKAnalyzer 中文分词器
IK Analyzer 安装包 它的安装部署十分简单,将IKAnalyzer3.oGA.jar 部署于项目的lib目录中;
所属分类:
Java
发布日期:2009-10-22
文件大小:1048576
提供者:
yjafd
Paoding中文分词包-附带实例,参考手册,Lucene实例
效果体验 使用者第一步最有可能的是想要体验了解庖丁的分词效果。考虑到这样的需求,庖丁提供了一个shell文件,使用者不必写任何代码就可以获得这样的信息。进入Paoding-Analysis分发包,在命令行模式下执行analyzer.bat(windows)或analyzer.sh(linux)即可。下以windows为例: u 显示帮助 E:\Paoding-Analysis>analyzer.bat ? u 分词对话 当没有在命令行参数种输入分词内容或待分词的文章时,analyzer.
所属分类:
Linux
发布日期:2010-06-08
文件大小:5242880
提供者:
hpf911
SVMCLS 文本自动分类器(可编译Release完整版)--李荣陆
之前的最好资源描述如下: svmcls 2.0文本自动分类器支持中文和英文文档,特征选择方式包括全局和按类别选取,概率估算方法支持基于文档(布尔)统计和基于词频统计,支持三种特征加权方式,特征评估函数包括信息增益、互信息、期望交叉熵、X^2统计,文本证据权重,右半信息增益,分类方法包括支持向量机SVM和K近邻KNN,由李荣陆老师于2004年开发完成。 网上流传很多版本的svmcls文本分类程序,但几乎全部都是不能编译通过的,有些是缺少xercesc文件夹,有些是缺少xerces-c_2_2_0
所属分类:
C
发布日期:2010-09-21
文件大小:9437184
提供者:
superyangtze
基于相邻词的中文关键词自动抽取
请先下载CAJ阅读器 对于单编文档d自动提取关键词的算法如下所述; 1 使用基于词典的正向最小分词算法对文档进行分词。 2统计出文档d中每个词t在d中的TF,并将每个词在d中的权重Wt.....
所属分类:
其它
发布日期:2010-11-09
文件大小:73728
提供者:
qdfch
IKAnalyzer中文分词器V3.2.X使用手册
采用了特有的“正向迭代最细粒度切分算法“,具有60万字/秒的高速处理能力。 采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。 优化的词典存储,更小的内存占用。支持用户词典扩展定义 针对Lucene全文检索优化的查询分析器IKQueryParser(作者吐血推荐);采用歧义分析算法优化查询关键字的搜索排列组合,能极大的提高Lucene检索的命中率。
所属分类:
Java
发布日期:2011-08-03
文件大小:500736
提供者:
feiyu84
IKAnalyzer中文分词器V2012使用手册
采用了特有的“正向迭代最细粒度切分算法“,具有60万字/秒的高速处理能力。 采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。 优化的词典存储,更小的内存占用。支持用户词典扩展定义 针对Lucene全文检索优化的查询分析器IKQueryParser(作者吐血推荐);采用歧义分析算法优化查询关键字的搜索排列组合,能极大的提高Lucene检索的命中率。
所属分类:
Java
发布日期:2012-03-13
文件大小:847872
提供者:
mailjava
ICTCLAS分词器
开源分词器,提供文档,类库,可以有效的分词,简单易用
所属分类:
C++
发布日期:2012-10-23
文件大小:8388608
提供者:
quitepig
Excel表格的35招必学秘技(快速成为高手).doc
Excel表格的35招必学秘技(快速成为高手).doc Excel表格的35招必学秘技,必看! 也许你已经在Excel中完成过上百张财务报表,也许你已利用Excel函数实现过上千次的复杂运算,也许你认为Excel也不过如此,甚至了无新意。但我们平日里无数次重复的得心应手的使用方法只不过是Excel全部技巧的百分之一。本专题从Excel中的一些鲜为人知的技巧入手,领略一下关于Excel的别样风情。 一、让不同类型数据用不同颜色显示 在工资表中,如果想让大于等于2000元的工资总额以“红色”显
所属分类:
专业指导
发布日期:2012-12-15
文件大小:183296
提供者:
wangyu519
中文分词器nlpir Java32位开发接口
需配合完整开发包使用,NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。 全球用户突破20万,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际SIGHAN分词大赛综合第一名,2002年国内973评测综合第一名。
所属分类:
Java
发布日期:2013-04-15
文件大小:788480
提供者:
wskings
分词器NLPIR
目前NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。国内国际排名均为第一。 项目已经配置好环境,导入Eclipse即可使用,文件内src下的TestUTF8.java可以直接运行,提供了分词接口
所属分类:
Java
发布日期:2014-01-21
文件大小:4194304
提供者:
reacherxu
最好用的中文分词器 IKAnalyzer
最好用的中文分词器 IKAnalyzer ;独立于lusence,更为强大和好用,谁用谁知道
所属分类:
Java
发布日期:2014-07-02
文件大小:1048576
提供者:
mlc0202
基于中文的Shuzhen分词器1.1.4提供下载
此版本改进为:分词时采用了完全匹配方式(自命名的),也即将符合字典条目的词全部切分出来,在基于字典的分词中达到了“分无可分”的程度;分词时完全按照标准分词来进行,这样保证了在和一些高亮显示组件如highlighter一起使用时,能准确无误的将命中进行高亮显示,避免了Google高亮显示的 Bug;配置文件的存放支持相对路径,这样更灵活,更方便应用在一些虚拟机上;字典条目支持导入到内存中,也就是在原有JDBM字典系统的基础上增加内存字典系统,且能方便自定义导入多少条目到内存中,能自定义使用内存还
所属分类:
专业指导
发布日期:2008-10-22
文件大小:833536
提供者:
yuanjian0211
IKAnalyze.jar
IK分词器,又称为lucene中文分词公用组件。包括两个分析器:MIK_CAnalyzer使用最大全切分算法;IK_CAnalyzer使用细粒度全切分算
所属分类:
Java
发布日期:2014-09-05
文件大小:884736
提供者:
lovewebeye
solr IKAnalyzer中文分词solr-dataimportscheduler.jar定时器
IKAnalyzer2012FF 中文分词 solr5 solr5.x 支持solr5.x版本,结合定时器,实现中文分词,定时增量刷新,方便全文检索增量实现;
所属分类:
Java
发布日期:2017-09-06
文件大小:1048576
提供者:
u011614254
solr ik中文分词
包含内容:IKAnalyzer中文分词器V2012使用手册.pdf;机械词汇大全【官方推荐】;深蓝词库转换.exe;中文分词词库打包50万词汇;IKAnalyzer-5.0.jar
所属分类:
Java
发布日期:2018-05-02
文件大小:10485760
提供者:
hyteddy
lucene中文分词、同义词制作源码
lucene分词器demo,有lucene自带的分词器及其使用方法,也有mmseg分词及其使用、同义词的简单实现;
所属分类:
Java
发布日期:2018-02-14
文件大小:2097152
提供者:
qq_33999844
pytorch实现task4——机器翻译及相关技术;注意力机制与Seq2seq模型;Transformer
机器翻译 机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。 主要特征:输出是单词序列而不是单个单词。 输出序列的长度可能与源序列的长度不同。 其主要的步骤包括数据预处理、分词、建立词典、载入数据集、Encoder-decoder、seq2seq等。 注意力机制与Seq2seq模型 在“编码器—解码器(seq2seq)”⼀节⾥,解码器在各个时间步依赖相同的背景变量(context vector)来获取输⼊序列信息。当编码器为循环神经
所属分类:
其它
发布日期:2021-01-06
文件大小:65536
提供者:
weixin_38705723
pytorch_task4机器翻译及相关技术;注意力机制与Seq2seq模型
机器翻译 机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。 主要特征:输出是单词序列而不是单个单词。 输出序列的长度可能与源序列的长度不同。 步骤: 1、数据预处理。将数据集清洗、转化为神经网络的输入minbatch 2、分词。字符串—单词组成的列表 3、建立词典。单词组成的列表—单词id组成的列表 4、Encoder-Decoder encoder:输入到隐藏状态 decoder:隐藏状态到输出 Sequence to Sequ
所属分类:
其它
发布日期:2021-01-20
文件大小:184320
提供者:
weixin_38728276
【NLP】之 结巴分词
1.结巴分词简介 结巴分词是当前效果较好的一种中文分词器,支持中文简体、中文繁体分词,同时还支持自定义词库。 结巴分词支持三种分词模式:精确模式、全模式和搜索引擎模式。 精确模式是试图将句子最精确的进行切分,适合用于文本分析; 全模式的原理是把句子中全部可以成词的词语全部扫描出来,它的分词速度快,缺点是无法识别歧义词句; 搜索引擎模式是在精确模式的基础上进一步处理的,它对较长的词语再进行分割,将召回率提高,适合于搜索引擎分词。 结巴分词自带一个词典,内含20000多条词,及词条出现的次数与词
所属分类:
其它
发布日期:2021-01-20
文件大小:159744
提供者:
weixin_38531017
«
1
2
3
4
5
»