您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. IKAnalyzer 3.0 中文分词器

  2. 1.IKAnalyzer3.0介绍 IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer 已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0 则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。 1.2IKAnalyzer3.0特性 * 采用了特有的“正向迭代最细粒度切分
  3. 所属分类:其它

    • 发布日期:2009-07-21
    • 文件大小:1048576
    • 提供者:linliangyi2006
  1. java IKAnalyzer 中文分词器

  2. IK Analyzer 安装包 它的安装部署十分简单,将IKAnalyzer3.oGA.jar 部署于项目的lib目录中;
  3. 所属分类:Java

    • 发布日期:2009-10-22
    • 文件大小:1048576
    • 提供者:yjafd
  1. Paoding中文分词包-附带实例,参考手册,Lucene实例

  2. 效果体验 使用者第一步最有可能的是想要体验了解庖丁的分词效果。考虑到这样的需求,庖丁提供了一个shell文件,使用者不必写任何代码就可以获得这样的信息。进入Paoding-Analysis分发包,在命令行模式下执行analyzer.bat(windows)或analyzer.sh(linux)即可。下以windows为例: u 显示帮助 E:\Paoding-Analysis>analyzer.bat ? u 分词对话 当没有在命令行参数种输入分词内容或待分词的文章时,analyzer.
  3. 所属分类:Linux

    • 发布日期:2010-06-08
    • 文件大小:5242880
    • 提供者:hpf911
  1. SVMCLS 文本自动分类器(可编译Release完整版)--李荣陆

  2. 之前的最好资源描述如下: svmcls 2.0文本自动分类器支持中文和英文文档,特征选择方式包括全局和按类别选取,概率估算方法支持基于文档(布尔)统计和基于词频统计,支持三种特征加权方式,特征评估函数包括信息增益、互信息、期望交叉熵、X^2统计,文本证据权重,右半信息增益,分类方法包括支持向量机SVM和K近邻KNN,由李荣陆老师于2004年开发完成。 网上流传很多版本的svmcls文本分类程序,但几乎全部都是不能编译通过的,有些是缺少xercesc文件夹,有些是缺少xerces-c_2_2_0
  3. 所属分类:C

    • 发布日期:2010-09-21
    • 文件大小:9437184
    • 提供者:superyangtze
  1. 基于相邻词的中文关键词自动抽取

  2. 请先下载CAJ阅读器 对于单编文档d自动提取关键词的算法如下所述; 1 使用基于词典的正向最小分词算法对文档进行分词。 2统计出文档d中每个词t在d中的TF,并将每个词在d中的权重Wt.....
  3. 所属分类:其它

    • 发布日期:2010-11-09
    • 文件大小:73728
    • 提供者:qdfch
  1. IKAnalyzer中文分词器V3.2.X使用手册

  2. 采用了特有的“正向迭代最细粒度切分算法“,具有60万字/秒的高速处理能力。 采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。 优化的词典存储,更小的内存占用。支持用户词典扩展定义 针对Lucene全文检索优化的查询分析器IKQueryParser(作者吐血推荐);采用歧义分析算法优化查询关键字的搜索排列组合,能极大的提高Lucene检索的命中率。
  3. 所属分类:Java

    • 发布日期:2011-08-03
    • 文件大小:500736
    • 提供者:feiyu84
  1. IKAnalyzer中文分词器V2012使用手册

  2. 采用了特有的“正向迭代最细粒度切分算法“,具有60万字/秒的高速处理能力。 采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。 优化的词典存储,更小的内存占用。支持用户词典扩展定义 针对Lucene全文检索优化的查询分析器IKQueryParser(作者吐血推荐);采用歧义分析算法优化查询关键字的搜索排列组合,能极大的提高Lucene检索的命中率。
  3. 所属分类:Java

    • 发布日期:2012-03-13
    • 文件大小:847872
    • 提供者:mailjava
  1. ICTCLAS分词器

  2. 开源分词器,提供文档,类库,可以有效的分词,简单易用
  3. 所属分类:C++

    • 发布日期:2012-10-23
    • 文件大小:8388608
    • 提供者:quitepig
  1. Excel表格的35招必学秘技(快速成为高手).doc

  2. Excel表格的35招必学秘技(快速成为高手).doc Excel表格的35招必学秘技,必看! 也许你已经在Excel中完成过上百张财务报表,也许你已利用Excel函数实现过上千次的复杂运算,也许你认为Excel也不过如此,甚至了无新意。但我们平日里无数次重复的得心应手的使用方法只不过是Excel全部技巧的百分之一。本专题从Excel中的一些鲜为人知的技巧入手,领略一下关于Excel的别样风情。 一、让不同类型数据用不同颜色显示   在工资表中,如果想让大于等于2000元的工资总额以“红色”显
  3. 所属分类:专业指导

    • 发布日期:2012-12-15
    • 文件大小:183296
    • 提供者:wangyu519
  1. 中文分词器nlpir Java32位开发接口

  2. 需配合完整开发包使用,NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。 全球用户突破20万,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际SIGHAN分词大赛综合第一名,2002年国内973评测综合第一名。
  3. 所属分类:Java

    • 发布日期:2013-04-15
    • 文件大小:788480
    • 提供者:wskings
  1. 分词器NLPIR

  2. 目前NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。国内国际排名均为第一。 项目已经配置好环境,导入Eclipse即可使用,文件内src下的TestUTF8.java可以直接运行,提供了分词接口
  3. 所属分类:Java

    • 发布日期:2014-01-21
    • 文件大小:4194304
    • 提供者:reacherxu
  1. 最好用的中文分词器 IKAnalyzer

  2. 最好用的中文分词器 IKAnalyzer ;独立于lusence,更为强大和好用,谁用谁知道
  3. 所属分类:Java

    • 发布日期:2014-07-02
    • 文件大小:1048576
    • 提供者:mlc0202
  1. 基于中文的Shuzhen分词器1.1.4提供下载

  2. 此版本改进为:分词时采用了完全匹配方式(自命名的),也即将符合字典条目的词全部切分出来,在基于字典的分词中达到了“分无可分”的程度;分词时完全按照标准分词来进行,这样保证了在和一些高亮显示组件如highlighter一起使用时,能准确无误的将命中进行高亮显示,避免了Google高亮显示的 Bug;配置文件的存放支持相对路径,这样更灵活,更方便应用在一些虚拟机上;字典条目支持导入到内存中,也就是在原有JDBM字典系统的基础上增加内存字典系统,且能方便自定义导入多少条目到内存中,能自定义使用内存还
  3. 所属分类:专业指导

    • 发布日期:2008-10-22
    • 文件大小:833536
    • 提供者:yuanjian0211
  1. IKAnalyze.jar

  2. IK分词器,又称为lucene中文分词公用组件。包括两个分析器:MIK_CAnalyzer使用最大全切分算法;IK_CAnalyzer使用细粒度全切分算
  3. 所属分类:Java

    • 发布日期:2014-09-05
    • 文件大小:884736
    • 提供者:lovewebeye
  1. solr IKAnalyzer中文分词solr-dataimportscheduler.jar定时器

  2. IKAnalyzer2012FF 中文分词 solr5 solr5.x 支持solr5.x版本,结合定时器,实现中文分词,定时增量刷新,方便全文检索增量实现;
  3. 所属分类:Java

    • 发布日期:2017-09-06
    • 文件大小:1048576
    • 提供者:u011614254
  1. solr ik中文分词

  2. 包含内容:IKAnalyzer中文分词器V2012使用手册.pdf;机械词汇大全【官方推荐】;深蓝词库转换.exe;中文分词词库打包50万词汇;IKAnalyzer-5.0.jar
  3. 所属分类:Java

    • 发布日期:2018-05-02
    • 文件大小:10485760
    • 提供者:hyteddy
  1. lucene中文分词、同义词制作源码

  2. lucene分词器demo,有lucene自带的分词器及其使用方法,也有mmseg分词及其使用、同义词的简单实现;
  3. 所属分类:Java

    • 发布日期:2018-02-14
    • 文件大小:2097152
    • 提供者:qq_33999844
  1. pytorch实现task4——机器翻译及相关技术;注意力机制与Seq2seq模型;Transformer

  2. 机器翻译 机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。 主要特征:输出是单词序列而不是单个单词。 输出序列的长度可能与源序列的长度不同。 其主要的步骤包括数据预处理、分词、建立词典、载入数据集、Encoder-decoder、seq2seq等。 注意力机制与Seq2seq模型 在“编码器—解码器(seq2seq)”⼀节⾥,解码器在各个时间步依赖相同的背景变量(context vector)来获取输⼊序列信息。当编码器为循环神经
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:65536
    • 提供者:weixin_38705723
  1. pytorch_task4机器翻译及相关技术;注意力机制与Seq2seq模型

  2. 机器翻译 机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。 主要特征:输出是单词序列而不是单个单词。 输出序列的长度可能与源序列的长度不同。 步骤: 1、数据预处理。将数据集清洗、转化为神经网络的输入minbatch 2、分词。字符串—单词组成的列表 3、建立词典。单词组成的列表—单词id组成的列表 4、Encoder-Decoder encoder:输入到隐藏状态 decoder:隐藏状态到输出 Sequence to Sequ
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:184320
    • 提供者:weixin_38728276
  1. 【NLP】之 结巴分词

  2. 1.结巴分词简介 结巴分词是当前效果较好的一种中文分词器,支持中文简体、中文繁体分词,同时还支持自定义词库。 结巴分词支持三种分词模式:精确模式、全模式和搜索引擎模式。 精确模式是试图将句子最精确的进行切分,适合用于文本分析; 全模式的原理是把句子中全部可以成词的词语全部扫描出来,它的分词速度快,缺点是无法识别歧义词句; 搜索引擎模式是在精确模式的基础上进一步处理的,它对较长的词语再进行分割,将召回率提高,适合于搜索引擎分词。 结巴分词自带一个词典,内含20000多条词,及词条出现的次数与词
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:159744
    • 提供者:weixin_38531017
« 12 3 4 5 »