您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 盘古分词最新版本(2.3.1.0)

  2. 资源为最新的盘古分词器,目前本人用过的比较好用的免费分词器。动态输入词库,动态添加停用词,使用后能达到百度的效果,包括分词高亮控件
  3. 所属分类:专业指导

    • 发布日期:2010-12-07
    • 文件大小:1048576
    • 提供者:dongdongleng
  1. stopword 中文停用词

  2. stopword 中文停用词 做文本分类器所需要的。 stopword 中文停用词 做文本分类器所需要的。
  3. 所属分类:数据库

    • 发布日期:2011-12-03
    • 文件大小:3072
    • 提供者:fx397993401
  1. Lucene 3.6.1完整案例

  2. Lucene 3.6.1: 中文分词、创建索引库、排序、多字段分页查询以及高亮显示源 希望对大家有帮助, 我自己建立的mysql数据库 使用了IKAnalyzer分词器源代码,大家可以自己设置停词,也可以自己改写算法
  3. 所属分类:Java

    • 发布日期:2013-04-04
    • 文件大小:6291456
    • 提供者:wangmingshan
  1. lucene的分词的测试工程

  2. lucene的分词的测试工程,包括分词器的比较,扩展停用词,同义词分词等
  3. 所属分类:Java

    • 发布日期:2013-04-21
    • 文件大小:4194304
    • 提供者:wxwzy738
  1. solr搭建(含拼音检索,三种分词器,停词器,扩展词库)

  2. solr的基本搭建,拼音检索,三种分词器(smartcn ,IK,mmseg4j)的安装,停词器的安装
  3. 所属分类:Java

    • 发布日期:2014-01-16
    • 文件大小:7340032
    • 提供者:ziyu08161820
  1. 中文停用词表 比较全

  2. 一个比较全的中文停用词表,研究搜索引擎或分词器可以用
  3. 所属分类:专业指导

    • 发布日期:2014-03-11
    • 文件大小:7168
    • 提供者:zcy_dr
  1. ICTCLAS分词器与Lucene4.9的结合

  2. 基于ICTCLAS中科院分词器实现Lucene4.9版本的中文分词功能,新增中英文停用词库,直接导入即可使用。
  3. 所属分类:Java

    • 发布日期:2014-08-14
    • 文件大小:14680064
    • 提供者:km1218
  1. 中文分词工具word-1.0,Java实现的中文分词组件多种基于词典的分词算法

  2. word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。 能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。 同时提供了Lucene、Solr、ElasticSearch插件。 分词使用方法: 1、快速体验 运行项目根目录下的脚本demo-word.bat可以快速体验分词效果 用法: command [text] [input] [output] 命令command的可选值为:demo、text、file
  3. 所属分类:Java

    • 发布日期:2014-11-05
    • 文件大小:10485760
    • 提供者:love_hachi
  1. IKAnalyzer2012FF_u1_完整版

  2. 亲测完美支持solr4.10.3的同义词、停用词、智能分析、细粒度分析
  3. 所属分类:Web开发

    • 发布日期:2015-11-12
    • 文件大小:1048576
    • 提供者:insist211314
  1. 基于ICTCLAS中科院分词器实现Lucene4.9版本的中文分词功能,新增中英文停用词库,直接导入即可使用

  2. ICTCLAS中科院分词器实现Lucene4.9版本的中文分词功能,新增中英文停用词库,直接导入即可使用
  3. 所属分类:Java

    • 发布日期:2016-03-31
    • 文件大小:14680064
    • 提供者:u010895156
  1. IKAnalyzer2012FF_u1 完美支持粗细力度分离/扩展停用同义词/

  2. 添加ik分词器时加入以下代码即可 isMaxWordLength属性为true则使用细粒度分词 反之使用粗粒度 ...展开收缩
  3. 所属分类:Java

    • 发布日期:2017-04-06
    • 文件大小:1048576
    • 提供者:x631617479
  1. 朴素贝叶斯分类器(中文)适用于情感分析

  2. 代码:Java语言 算法:朴素贝叶斯分类器(中文)适用于情感分析 涉及:条件概率,先验概率计算,中文分词器,停用词处理
  3. 所属分类:Java

    • 发布日期:2017-09-12
    • 文件大小:1048576
    • 提供者:qq_40196691
  1. solr分词器

  2. classpath目录:/usr/local/solr/tomcat/webapps/solr/WEB-INF/classes [root@bogon IK Analyzer 2012FF_hf1]# cp IKAnalyzer.cfg.xml ext_stopword.dic mydict.dic /usr/local/solr/tomcat/webapps/solr/WEB-INF/classes 注意:扩展词典及停用词词典的字符集必须是utf-8。不能使用windows记事本编辑。
  3. 所属分类:Java

    • 发布日期:2017-09-25
    • 文件大小:4194304
    • 提供者:u011277123
  1. IK-Analyzer 分词器所需要的配置文件、扩展词典及停用词词典 完整包下载

  2. IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。 采用了特有的“正向迭代最细粒度切分算法”,具有60万字/秒的高速处理能力。 采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。 Linux下Solr4.10.4搜索引擎的安装与部署图文详解 : http://blog.csdn.net/Hello_World_QWP/article/details/7
  3. 所属分类:其它

    • 发布日期:2017-12-25
    • 文件大小:1048576
    • 提供者:hello_world_qwp
  1. IKAnalyzer 分词器所需要的停用词词典 ext_stopword.dic 下载

  2. IKAnalyzer 分词器所需要的停用词词典 ext_stopword.dic 下载 Solr中使用IK-Analyzer实现中文分词器的配置详情 : http://blog.csdn.net/hello_world_qwp/article/details/78890904
  3. 所属分类:其它

  1. stopwords.txt

  2. 停词器 stopwords.txt 内含18000多个字符 压缩包形式 下载后自行解压即可使用
  3. 所属分类:其它

    • 发布日期:2018-03-20
    • 文件大小:9216
    • 提供者:pc_jc
  1. IKAnalyzer分词器升级Lucene5.5.4

  2. 目前比较好用的分词器 是IK 2012年停更 只支持到 Lucene4.7 ,但是有些程序需要使用Lucene高版本,比如,Solr5.5就需要Lucene5.5.4来支持
  3. 所属分类:平台管理

    • 发布日期:2018-01-17
    • 文件大小:1048576
    • 提供者:wfq784967698
  1. 6.8.5IK分词器

  2. 1.IK分词器安装包,直接放在ES的plugins文件夹下解压就可以使用。如果需要配置自定义词典,将自己的.dic文件放在IK解压后的config即可,同时在IKAnalyzer.cfg.xml添加扩展词典或自定义的停词词典用英文分号(;)分隔即可(如:test.dic;extra_single_word_low_freq.dic)。 2.如果使用远程词库,在远程sever放置.txt自定义分词文件,使用http://ip:端口号/文件名.txt配置即可,远程停词文件配置再中。 注:这里存放
  3. 所属分类:Java

    • 发布日期:2020-03-17
    • 文件大小:4194304
    • 提供者:Tomcat_wr8
  1. NLTK健康领域英文文本分词、词性标注、词频统计

  2. import re import numpy as np import pandas as pd import nltk.tokenize as tk import nltk.corpus as nc handel_file = 'health_handel.csv' #分词好要保存的数据文件路径 #读取数据 data=pd.read_excel('health.xlsx') print(data.head(10)) stopwords = nc.stopwords.words('engl
  3. 所属分类:其它

    • 发布日期:2020-12-21
    • 文件大小:525312
    • 提供者:weixin_38726712
  1. ES使用热词 停用词注意事项

  2. elasticsearch对无意义的词进行屏蔽——停用词 介绍 在使用elasticsearch进行搜索业务的时候,发现一篇和搜索关键字完全不匹配的文章排在最前面.打开它发现原来是这篇文章含有非常多的”的”这个无意义的词.而我的搜索关键字假设为”历史上的 今天”,它可能就被ik_max_word分词后,刚好就有”的”这个词.所以会造成一篇含有很多”的”的文章,即使跟搜索关键字无关,也可能得分很高,排在前面. 那么我们需要做的就是如何对这些无意义的词——停用词进行屏蔽. 解决方案 其实这个问题很好
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:68608
    • 提供者:weixin_38516040
« 12 3 4 »