点数信息
www.dssz.net
注册会员
|
设为首页
|
加入收藏夹
您好,欢迎光临本网站!
[请登录]
!
[注册会员]
!
首页
移动开发
云计算
大数据
数据库
游戏开发
人工智能
网络技术
区块链
操作系统
模糊查询
热门搜索:
源码
Android
整站
插件
识别
p2p
游戏
算法
更多...
在线客服QQ:632832888
当前位置:
资源下载
搜索资源 - stopword.txt
下载资源分类
移动开发
开发技术
课程资源
网络技术
操作系统
安全技术
数据库
行业
服务器应用
存储
信息化
考试认证
云计算
大数据
跨平台
音视频
游戏开发
人工智能
区块链
在结果中搜索
所属系统
Windows
Linux
FreeBSD
Unix
Dos
PalmOS
WinCE
SymbianOS
MacOS
Android
开发平台
Visual C
Visual.Net
Borland C
CBuilder
Dephi
gcc
VBA
LISP
IDL
VHDL
Matlab
MathCAD
Flash
Xcode
Android STU
LabVIEW
开发语言
C/C++
Pascal
ASM
Java
PHP
Basic/ASP
Perl
Python
VBScript
JavaScript
SQL
FoxBase
SHELL
E语言
OC/Swift
文件类型
源码
程序
CHM
PDF
PPT
WORD
Excel
Access
HTML
Text
资源分类
搜索资源列表
已整理 停用词表 符号、英文、中文应删除词集合
压缩包里含四个文本文档 1、符号stopWord.txt (1KB) 2、英文stopWord.txt (3KB) 3、中文stopWord.txt (8KB) 4、集合stopWord.txt (11KB) 其中第四个文档是前三个文档的集合。 此是本人实验过程中搜集整理的结果(以前的老版本加上自己整合的)。 已做预处理等,保证不重复。
所属分类:
专业指导
发布日期:2010-08-26
文件大小:11264
提供者:
djlhoho
IKAnalyzer2012_u6
资源包中包含 1、《IKAnalyzer中文分词器V2012使用手册》 2、IKAnalyzer2012.jar(主jar包) 3、IKAnalyzer.cfg.xml(分词器扩展配置文件) 4、stopword.dic(停止词典) 5、LICENSE.TXT;NOTICE.TXT(版权声明)
所属分类:
Java
发布日期:2014-11-21
文件大小:2097152
提供者:
njustgirl
盘古分词2.3.1.0
盘古分词可以根据词频来解决分词的歧义题目 多元分词 盘古分词提供多重输入解决分词粒度和分词精度衡量的问题 详见eaglet/archive/2008/10/02/.html 中文人名识别 输入:“张三说切实其实实在理” 分词了局:张三/说/的/确实/在理/ 输入“李三买了一张三角桌子” 分词结果:李三/买/了/一张/三角/桌子/ 详见eaglet/archive/2009/08/19/.html 强逼一元分词 输入“张三说的确实在理” 分词结果:中文。张(0,1)/张三(0,5)/三说的(1,
所属分类:
C#
发布日期:2017-08-18
文件大小:207872
提供者:
xzhanjing55
chineseStopWords.txt
在中文网站里面其实也存在大量的stop word。比如,我们前面这句话,“在”、“里面”、“也”、“的”、“它”、“为”这些词都是停止词。这些词因为使用频率过高,几乎每个网页上都存在,所以搜索引擎开发人员都将这一类词语全部忽略掉。
所属分类:
Python
发布日期:2017-08-20
文件大小:3072
提供者:
longai1567
盘古分词 词典dct
盘古分词 词典 包含 1.ChsDoubleName1.txt 2.ChsDoubleName2.txt 3.ChsSingleName.txt 4.Dict.dct 5.Stopword.txt 6.Synonym.txt 7.Wildcard.txt
所属分类:
C#
发布日期:2018-06-01
文件大小:1048576
提供者:
u010623779
莎士比亚文集词频统计并行化算法_实验文件
这是《高校云计算应用创新大赛》里的最后一道题,题目是莎士比亚文集词频统计并行化算法。由于原网站上的实验文件已经无法下载了,所以这里上传一份,包含 shakespear.zip、stopword.txt.
所属分类:
spark
发布日期:2018-02-26
文件大小:1048576
提供者:
trueyaoyin
IKAnalyzer2012完整分发包
IK Analyzer安装包包含: 1. 《IKAnalyzer中文分词器V2012使用手册》(即本文档) 2. IKAnalyzer2012.jar(主jar包) 3. IKAnalyzer.cfg.xml(分词器扩展配置文件) 4. stopword.dic(停止词典) 5. LICENSE.TXT ; NOTICE.TXT (apache版权申明) 它的安装部署十分简单,将 IKAnalyzer2012.jar 部署于项目的 lib 目录中; IKAnalyzer.cfg.xml 与 s
所属分类:
机器学习
发布日期:2018-09-14
文件大小:2097152
提供者:
fadgafdgfdg
处理停用词清洗程序
java程序代码,处理停用词清洗,代码中源文件是dat格式,但是读取方法与txt类型无异
所属分类:
管理软件
发布日期:2018-09-29
文件大小:2048
提供者:
weixin_42031822
盘古分词字典dict.dct 以及bin下面dict文件夹下面的txt文件
盘古分词字典dict.dct 以及bin下面dict文件夹下面的txt文件 包含 ChsDoubleName1.txt ChsDoubleName2.txt ChsSingleName.txt Stopword.txt Synonym.txt Wildcard.txt
所属分类:
C#
发布日期:2019-04-02
文件大小:1048576
提供者:
yeagoodidea
停词表stop_words_eng.txt
停词表,可用于文档倒排索引中。人类语言包含很多功能词。与其他词相比,功能词没有什么实际含义。最普遍的功能词是限定词(“the”、“a”、“an”、“that”、和“those”),这些词帮助在文本中描述名词和表达概念,如地点或数量。介词如:“over”,“under”,“above” 等表示两个词的相对位置。 这些功能词的两个特征促使在搜索引擎的文本处理过程中对其特殊对待。第一,这些功能词极其普遍。记录这些词在每一个文档中的数量需要很大的磁盘空间。第二,由于它们的普遍性和功能,这些词很少单独表
所属分类:
Hadoop
发布日期:2019-04-13
文件大小:6144
提供者:
june_xixi
ik-analyzer-solr7.zip
1.ik中文分词器适配最新版本solr7和solr8,下载后解压,将target下的ik-analyzer-7.7.1.jar包放入Solr服务的`Jetty`或`Tomcat`的`webapp/WEB-INF/lib/`目录下。 2.将`resources`目录下的5个配置文件放入solr服务的`Jetty`或`Tomcat`的`webapp/WEB-INF/classes/`目录下; ```console ① IKAnalyzer.cfg.xml ② ext.dic ③ stopword.
所属分类:
Java
发布日期:2019-05-15
文件大小:37748736
提供者:
weixin_42133396
中文分词器IK Analyzer 2012FF_hf1_Solr4.x.rar
内容包括:doc、IKAnalyzer.cfg.xml、IKAnalyzer2012FF_u1.jar、IKAnalyzer中文分词器V2012_FF使用手册.pdf、LICENSE.txt、NOTICE.txt、stopword.dic
所属分类:
Java
发布日期:2019-07-24
文件大小:2097152
提供者:
sunwws
stopwordsC.txt
中文分词所需的中文停止词文档 https://blog.csdn.net/weixin_46124302/article/details/105065081 我的本篇博文所需材料,使用方法本篇博文中略有涉及 如果搜索引擎要将这些词都索引的话,那么几乎每个网站都会被索引,也就是说工作量巨大。可以毫不夸张的说句,只要是个英文网站都会用到a或者是the。那么这些英文的词跟我们中文有什么关系呢? 在中文网站里面其实也存在大量的stopword,我们称它为停止词。比如,我们前面这句话,“在”、“里面
所属分类:
Python
发布日期:2020-03-24
文件大小:9216
提供者:
weixin_46124302
IKAnalyzer2012_u6中文分词器以及手册正式版.zip
IKAnalyzer2012_u6中文分词器以及手册正式版 Mode LastWriteTime Length Name ---- ------------- ------ ----
所属分类:
互联网
发布日期:2020-06-06
文件大小:2097152
提供者:
blackwall2010
stopword.txt
内涵3000多个中文停用词,很有用。希望能够帮到大家,仅限个人学习使用,若有其他用途,后果自负。:总的来看 总的来说 总的说来 总而言之 总之 纵 纵令 纵然 纵使 遵照 作为 兮 呃 呗 咚 咦 喏 啐 喔唷 嗬 嗯
所属分类:
机器学习
发布日期:2020-07-14
文件大小:26624
提供者:
weixin_45042729
datalab/jdItemAnalysis-数据集
not.csv duihuakuan.jpg degree.csv neg_com.csv stopword.txt pos_com.csv y.csv BosonNLP_sentiment_score.txt comment.csv
所属分类:
其它
发布日期:2021-03-19
文件大小:10485760
提供者:
weixin_38745925
Stopword Lists for 19 Languages 19种语言的停用词列表-数据集
有些单词(例如英语中的“ the”或“ and”)在演讲和写作中经常使用。对于大多数自然语言处理应用程序,您将希望删除这些非常常见的单词。通常使用手工编制的“停用词”列表来完成此操作。该数据集包含19种语言的停用词列表。 arabicST.txt bengaliST.txt bulgarianST.txt czechST.txt englishST.txt finnishST.txt frenchST.txt germanST.txt hindiST.txt hungaria
所属分类:
其它
发布日期:2021-03-18
文件大小:21504
提供者:
weixin_38610815
stopwords-数据集
stopword.txt
所属分类:
其它
发布日期:2021-03-15
文件大小:18432
提供者:
weixin_38623707
stopword.txt
情感分析、文本挖掘分析中文停用词大全
所属分类:
机器学习
发布日期:2021-01-27
文件大小:12288
提供者:
yawei_liu1688