搜索资源 - 停词器 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 停词器

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

盘古分词最新版本（2.3.1.0）
资源为最新的盘古分词器，目前本人用过的比较好用的免费分词器。动态输入词库，动态添加停用词，使用后能达到百度的效果，包括分词高亮控件
所属分类：专业指导
- 发布日期：2010-12-07
- 文件大小：1048576
- 提供者：dongdongleng

stopword 中文停用词
stopword 中文停用词做文本分类器所需要的。 stopword 中文停用词做文本分类器所需要的。
所属分类：数据库
- 发布日期：2011-12-03
- 文件大小：3072
- 提供者：fx397993401

Lucene 3.6.1完整案例
Lucene 3.6.1：中文分词、创建索引库、排序、多字段分页查询以及高亮显示源希望对大家有帮助，我自己建立的mysql数据库使用了IKAnalyzer分词器源代码，大家可以自己设置停词，也可以自己改写算法
所属分类：Java
- 发布日期：2013-04-04
- 文件大小：6291456
- 提供者：wangmingshan

lucene的分词的测试工程
lucene的分词的测试工程，包括分词器的比较，扩展停用词，同义词分词等
所属分类：Java
- 发布日期：2013-04-21
- 文件大小：4194304
- 提供者：wxwzy738

solr搭建（含拼音检索，三种分词器，停词器，扩展词库）
solr的基本搭建，拼音检索，三种分词器（smartcn ，IK，mmseg4j）的安装，停词器的安装
所属分类：Java
- 发布日期：2014-01-16
- 文件大小：7340032
- 提供者：ziyu08161820

中文停用词表比较全
一个比较全的中文停用词表，研究搜索引擎或分词器可以用
所属分类：专业指导
- 发布日期：2014-03-11
- 文件大小：7168
- 提供者：zcy_dr

ICTCLAS分词器与Lucene4.9的结合
基于ICTCLAS中科院分词器实现Lucene4.9版本的中文分词功能，新增中英文停用词库，直接导入即可使用。
所属分类：Java
- 发布日期：2014-08-14
- 文件大小：14680064
- 提供者：km1218

中文分词工具word-1.0,Java实现的中文分词组件多种基于词典的分词算法
word分词是一个Java实现的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名、组织机构名等未登录词。同时提供了Lucene、Solr、ElasticSearch插件。分词使用方法： 1、快速体验运行项目根目录下的脚本demo-word.bat可以快速体验分词效果用法: command [text] [input] [output] 命令command的可选值为：demo、text、file
所属分类：Java
- 发布日期：2014-11-05
- 文件大小：10485760
- 提供者：love_hachi

IKAnalyzer2012FF_u1_完整版
亲测完美支持solr4.10.3的同义词、停用词、智能分析、细粒度分析
所属分类：Web开发
- 发布日期：2015-11-12
- 文件大小：1048576
- 提供者：insist211314

基于ICTCLAS中科院分词器实现Lucene4.9版本的中文分词功能，新增中英文停用词库，直接导入即可使用
ICTCLAS中科院分词器实现Lucene4.9版本的中文分词功能，新增中英文停用词库，直接导入即可使用
所属分类：Java
- 发布日期：2016-03-31
- 文件大小：14680064
- 提供者：u010895156

IKAnalyzer2012FF_u1 完美支持粗细力度分离/扩展停用同义词/
添加ik分词器时加入以下代码即可 isMaxWordLength属性为true则使用细粒度分词反之使用粗粒度 ...展开收缩
所属分类：Java
- 发布日期：2017-04-06
- 文件大小：1048576
- 提供者：x631617479

朴素贝叶斯分类器（中文）适用于情感分析
代码：Java语言算法：朴素贝叶斯分类器（中文）适用于情感分析涉及：条件概率，先验概率计算，中文分词器，停用词处理
所属分类：Java
- 发布日期：2017-09-12
- 文件大小：1048576
- 提供者：qq_40196691

solr分词器
classpath目录：/usr/local/solr/tomcat/webapps/solr/WEB-INF/classes [root@bogon IK Analyzer 2012FF_hf1]# cp IKAnalyzer.cfg.xml ext_stopword.dic mydict.dic /usr/local/solr/tomcat/webapps/solr/WEB-INF/classes 注意：扩展词典及停用词词典的字符集必须是utf-8。不能使用windows记事本编辑。
所属分类：Java
- 发布日期：2017-09-25
- 文件大小：4194304
- 提供者：u011277123

IK-Analyzer 分词器所需要的配置文件、扩展词典及停用词词典完整包下载
IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。采用了特有的“正向迭代最细粒度切分算法”，具有60万字/秒的高速处理能力。采用了多子处理器分析模式，支持：英文字母（IP地址、Email、URL）、数字（日期，常用中文数量词，罗马数字，科学计数法），中文词汇（姓名、地名处理）等分词处理。 Linux下Solr4.10.4搜索引擎的安装与部署图文详解 : http://blog.csdn.net/Hello_World_QWP/article/details/7
所属分类：其它
- 发布日期：2017-12-25
- 文件大小：1048576
- 提供者：hello_world_qwp

IKAnalyzer 分词器所需要的停用词词典 ext_stopword.dic 下载
IKAnalyzer 分词器所需要的停用词词典 ext_stopword.dic 下载 Solr中使用IK-Analyzer实现中文分词器的配置详情 : http://blog.csdn.net/hello_world_qwp/article/details/78890904
所属分类：其它
- 发布日期：2017-12-25
- 文件大小：451
- 提供者：hello_world_qwp

stopwords.txt
停词器 stopwords.txt 内含18000多个字符压缩包形式下载后自行解压即可使用
所属分类：其它
- 发布日期：2018-03-20
- 文件大小：9216
- 提供者：pc_jc

IKAnalyzer分词器升级Lucene5.5.4
目前比较好用的分词器是IK 2012年停更只支持到 Lucene4.7 ，但是有些程序需要使用Lucene高版本，比如，Solr5.5就需要Lucene5.5.4来支持
所属分类：平台管理
- 发布日期：2018-01-17
- 文件大小：1048576
- 提供者：wfq784967698

6.8.5IK分词器
1.IK分词器安装包，直接放在ES的plugins文件夹下解压就可以使用。如果需要配置自定义词典，将自己的.dic文件放在IK解压后的config即可，同时在IKAnalyzer.cfg.xml添加扩展词典或自定义的停词词典用英文分号（;）分隔即可（如：test.dic;extra_single_word_low_freq.dic）。 2.如果使用远程词库，在远程sever放置.txt自定义分词文件，使用http://ip:端口号/文件名.txt配置即可，远程停词文件配置再中。注：这里存放
所属分类：Java
- 发布日期：2020-03-17
- 文件大小：4194304
- 提供者：Tomcat_wr8

NLTK健康领域英文文本分词、词性标注、词频统计
import re import numpy as np import pandas as pd import nltk.tokenize as tk import nltk.corpus as nc handel_file = 'health_handel.csv' #分词好要保存的数据文件路径 #读取数据 data=pd.read_excel('health.xlsx') print(data.head(10)) stopwords = nc.stopwords.words('engl
所属分类：其它
- 发布日期：2020-12-21
- 文件大小：525312
- 提供者：weixin_38726712

ES使用热词停用词注意事项
elasticsearch对无意义的词进行屏蔽——停用词介绍在使用elasticsearch进行搜索业务的时候,发现一篇和搜索关键字完全不匹配的文章排在最前面.打开它发现原来是这篇文章含有非常多的”的”这个无意义的词.而我的搜索关键字假设为”历史上的今天”,它可能就被ik_max_word分词后,刚好就有”的”这个词.所以会造成一篇含有很多”的”的文章,即使跟搜索关键字无关,也可能得分很高,排在前面. 那么我们需要做的就是如何对这些无意义的词——停用词进行屏蔽. 解决方案其实这个问题很好
所属分类：其它
- 发布日期：2021-01-06
- 文件大小：68608
- 提供者：weixin_38516040

« 12 3 4 »