搜索资源 - stopword.txt - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - stopword.txt

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

已整理停用词表符号、英文、中文应删除词集合
压缩包里含四个文本文档 1、符号stopWord.txt (1KB) 2、英文stopWord.txt (3KB) 3、中文stopWord.txt (8KB) 4、集合stopWord.txt (11KB) 其中第四个文档是前三个文档的集合。此是本人实验过程中搜集整理的结果（以前的老版本加上自己整合的）。已做预处理等，保证不重复。
所属分类：专业指导
- 发布日期：2010-08-26
- 文件大小：11264
- 提供者：djlhoho

IKAnalyzer2012_u6
资源包中包含 1、《IKAnalyzer中文分词器V2012使用手册》 2、IKAnalyzer2012.jar（主jar包） 3、IKAnalyzer.cfg.xml（分词器扩展配置文件） 4、stopword.dic（停止词典） 5、LICENSE.TXT;NOTICE.TXT（版权声明）
所属分类：Java
- 发布日期：2014-11-21
- 文件大小：2097152
- 提供者：njustgirl

盘古分词2.3.1.0
盘古分词可以根据词频来解决分词的歧义题目多元分词盘古分词提供多重输入解决分词粒度和分词精度衡量的问题详见eaglet/archive/2008/10/02/.html 中文人名识别输入：“张三说切实其实实在理” 分词了局：张三/说/的/确实/在理/ 输入“李三买了一张三角桌子” 分词结果：李三/买/了/一张/三角/桌子/ 详见eaglet/archive/2009/08/19/.html 强逼一元分词输入“张三说的确实在理” 分词结果：中文。张(0,1)/张三(0,5)/三说的(1,
所属分类：C#
- 发布日期：2017-08-18
- 文件大小：207872
- 提供者：xzhanjing55

chineseStopWords.txt
在中文网站里面其实也存在大量的stop word。比如，我们前面这句话，“在”、“里面”、“也”、“的”、“它”、“为”这些词都是停止词。这些词因为使用频率过高，几乎每个网页上都存在，所以搜索引擎开发人员都将这一类词语全部忽略掉。
所属分类：Python
- 发布日期：2017-08-20
- 文件大小：3072
- 提供者：longai1567

盘古分词词典dct
盘古分词词典包含 1.ChsDoubleName1.txt 2.ChsDoubleName2.txt 3.ChsSingleName.txt 4.Dict.dct 5.Stopword.txt 6.Synonym.txt 7.Wildcard.txt
所属分类：C#
- 发布日期：2018-06-01
- 文件大小：1048576
- 提供者：u010623779

莎士比亚文集词频统计并行化算法_实验文件
这是《高校云计算应用创新大赛》里的最后一道题，题目是莎士比亚文集词频统计并行化算法。由于原网站上的实验文件已经无法下载了，所以这里上传一份，包含 shakespear.zip、stopword.txt.
所属分类：spark
- 发布日期：2018-02-26
- 文件大小：1048576
- 提供者：trueyaoyin

IKAnalyzer2012完整分发包
IK Analyzer安装包包含： 1. 《IKAnalyzer中文分词器V2012使用手册》（即本文档） 2. IKAnalyzer2012.jar（主jar包） 3. IKAnalyzer.cfg.xml（分词器扩展配置文件） 4. stopword.dic（停止词典） 5. LICENSE.TXT ; NOTICE.TXT （apache版权申明）它的安装部署十分简单，将 IKAnalyzer2012.jar 部署于项目的 lib 目录中； IKAnalyzer.cfg.xml 与 s
所属分类：机器学习
- 发布日期：2018-09-14
- 文件大小：2097152
- 提供者：fadgafdgfdg

处理停用词清洗程序
java程序代码，处理停用词清洗，代码中源文件是dat格式，但是读取方法与txt类型无异
所属分类：管理软件
- 发布日期：2018-09-29
- 文件大小：2048
- 提供者：weixin_42031822

盘古分词字典dict.dct 以及bin下面dict文件夹下面的txt文件
盘古分词字典dict.dct 以及bin下面dict文件夹下面的txt文件包含 ChsDoubleName1.txt ChsDoubleName2.txt ChsSingleName.txt Stopword.txt Synonym.txt Wildcard.txt
所属分类：C#
- 发布日期：2019-04-02
- 文件大小：1048576
- 提供者：yeagoodidea

停词表stop_words_eng.txt
停词表，可用于文档倒排索引中。人类语言包含很多功能词。与其他词相比，功能词没有什么实际含义。最普遍的功能词是限定词（“the”、“a”、“an”、“that”、和“those”），这些词帮助在文本中描述名词和表达概念，如地点或数量。介词如：“over”，“under”，“above” 等表示两个词的相对位置。这些功能词的两个特征促使在搜索引擎的文本处理过程中对其特殊对待。第一，这些功能词极其普遍。记录这些词在每一个文档中的数量需要很大的磁盘空间。第二，由于它们的普遍性和功能，这些词很少单独表
所属分类：Hadoop
- 发布日期：2019-04-13
- 文件大小：6144
- 提供者：june_xixi

ik-analyzer-solr7.zip
1.ik中文分词器适配最新版本solr7和solr8，下载后解压，将target下的ik-analyzer-7.7.1.jar包放入Solr服务的`Jetty`或`Tomcat`的`webapp/WEB-INF/lib/`目录下。 2.将`resources`目录下的5个配置文件放入solr服务的`Jetty`或`Tomcat`的`webapp/WEB-INF/classes/`目录下； ```console ① IKAnalyzer.cfg.xml ② ext.dic ③ stopword.
所属分类：Java
- 发布日期：2019-05-15
- 文件大小：37748736
- 提供者：weixin_42133396

中文分词器IK Analyzer 2012FF_hf1_Solr4.x.rar
内容包括：doc、IKAnalyzer.cfg.xml、IKAnalyzer2012FF_u1.jar、IKAnalyzer中文分词器V2012_FF使用手册.pdf、LICENSE.txt、NOTICE.txt、stopword.dic
所属分类：Java
- 发布日期：2019-07-24
- 文件大小：2097152
- 提供者：sunwws

stopwordsC.txt
中文分词所需的中文停止词文档 https://blog.csdn.net/weixin_46124302/article/details/105065081 我的本篇博文所需材料，使用方法本篇博文中略有涉及如果搜索引擎要将这些词都索引的话，那么几乎每个网站都会被索引，也就是说工作量巨大。可以毫不夸张的说句，只要是个英文网站都会用到a或者是the。那么这些英文的词跟我们中文有什么关系呢？在中文网站里面其实也存在大量的stopword，我们称它为停止词。比如，我们前面这句话，“在”、“里面
所属分类：Python
- 发布日期：2020-03-24
- 文件大小：9216
- 提供者：weixin_46124302

IKAnalyzer2012_u6中文分词器以及手册正式版.zip
IKAnalyzer2012_u6中文分词器以及手册正式版 Mode LastWriteTime Length Name ---- ------------- ------ ----
所属分类：互联网
- 发布日期：2020-06-06
- 文件大小：2097152
- 提供者：blackwall2010

stopword.txt
内涵3000多个中文停用词，很有用。希望能够帮到大家，仅限个人学习使用，若有其他用途，后果自负。：总的来看总的来说总的说来总而言之总之纵纵令纵然纵使遵照作为兮呃呗咚咦喏啐喔唷嗬嗯
所属分类：机器学习
- 发布日期：2020-07-14
- 文件大小：26624
- 提供者：weixin_45042729

datalab/jdItemAnalysis-数据集
not.csv duihuakuan.jpg degree.csv neg_com.csv stopword.txt pos_com.csv y.csv BosonNLP_sentiment_score.txt comment.csv
所属分类：其它
- 发布日期：2021-03-19
- 文件大小：10485760
- 提供者：weixin_38745925

Stopword Lists for 19 Languages 19种语言的停用词列表-数据集
有些单词（例如英语中的“ the”或“ and”）在演讲和写作中经常使用。对于大多数自然语言处理应用程序，您将希望删除这些非常常见的单词。通常使用手工编制的“停用词”列表来完成此操作。该数据集包含19种语言的停用词列表。 arabicST.txt bengaliST.txt bulgarianST.txt czechST.txt englishST.txt finnishST.txt frenchST.txt germanST.txt hindiST.txt hungaria
所属分类：其它
- 发布日期：2021-03-18
- 文件大小：21504
- 提供者：weixin_38610815

stopwords-数据集
stopword.txt
所属分类：其它
- 发布日期：2021-03-15
- 文件大小：18432
- 提供者：weixin_38623707

stopword.txt
情感分析、文本挖掘分析中文停用词大全
所属分类：机器学习
- 发布日期：2021-01-27
- 文件大小：12288
- 提供者：yawei_liu1688