您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 已整理 停用词表 符号、英文、中文应删除词集合

  2. 压缩包里含四个文本文档 1、符号stopWord.txt (1KB) 2、英文stopWord.txt (3KB) 3、中文stopWord.txt (8KB) 4、集合stopWord.txt (11KB) 其中第四个文档是前三个文档的集合。 此是本人实验过程中搜集整理的结果(以前的老版本加上自己整合的)。 已做预处理等,保证不重复。
  3. 所属分类:专业指导

    • 发布日期:2010-08-26
    • 文件大小:11264
    • 提供者:djlhoho
  1. IKAnalyzer2012_u6

  2. 资源包中包含 1、《IKAnalyzer中文分词器V2012使用手册》 2、IKAnalyzer2012.jar(主jar包) 3、IKAnalyzer.cfg.xml(分词器扩展配置文件) 4、stopword.dic(停止词典) 5、LICENSE.TXT;NOTICE.TXT(版权声明)
  3. 所属分类:Java

    • 发布日期:2014-11-21
    • 文件大小:2097152
    • 提供者:njustgirl
  1. 盘古分词2.3.1.0

  2. 盘古分词可以根据词频来解决分词的歧义题目 多元分词 盘古分词提供多重输入解决分词粒度和分词精度衡量的问题 详见eaglet/archive/2008/10/02/.html 中文人名识别 输入:“张三说切实其实实在理” 分词了局:张三/说/的/确实/在理/ 输入“李三买了一张三角桌子” 分词结果:李三/买/了/一张/三角/桌子/ 详见eaglet/archive/2009/08/19/.html 强逼一元分词 输入“张三说的确实在理” 分词结果:中文。张(0,1)/张三(0,5)/三说的(1,
  3. 所属分类:C#

    • 发布日期:2017-08-18
    • 文件大小:207872
    • 提供者:xzhanjing55
  1. chineseStopWords.txt

  2. 在中文网站里面其实也存在大量的stop word。比如,我们前面这句话,“在”、“里面”、“也”、“的”、“它”、“为”这些词都是停止词。这些词因为使用频率过高,几乎每个网页上都存在,所以搜索引擎开发人员都将这一类词语全部忽略掉。
  3. 所属分类:Python

    • 发布日期:2017-08-20
    • 文件大小:3072
    • 提供者:longai1567
  1. 盘古分词 词典dct

  2. 盘古分词 词典 包含 1.ChsDoubleName1.txt 2.ChsDoubleName2.txt 3.ChsSingleName.txt 4.Dict.dct 5.Stopword.txt 6.Synonym.txt 7.Wildcard.txt
  3. 所属分类:C#

    • 发布日期:2018-06-01
    • 文件大小:1048576
    • 提供者:u010623779
  1. 莎士比亚文集词频统计并行化算法_实验文件

  2. 这是《高校云计算应用创新大赛》里的最后一道题,题目是莎士比亚文集词频统计并行化算法。由于原网站上的实验文件已经无法下载了,所以这里上传一份,包含 shakespear.zip、stopword.txt.
  3. 所属分类:spark

    • 发布日期:2018-02-26
    • 文件大小:1048576
    • 提供者:trueyaoyin
  1. IKAnalyzer2012完整分发包

  2. IK Analyzer安装包包含: 1. 《IKAnalyzer中文分词器V2012使用手册》(即本文档) 2. IKAnalyzer2012.jar(主jar包) 3. IKAnalyzer.cfg.xml(分词器扩展配置文件) 4. stopword.dic(停止词典) 5. LICENSE.TXT ; NOTICE.TXT (apache版权申明) 它的安装部署十分简单,将 IKAnalyzer2012.jar 部署于项目的 lib 目录中; IKAnalyzer.cfg.xml 与 s
  3. 所属分类:机器学习

    • 发布日期:2018-09-14
    • 文件大小:2097152
    • 提供者:fadgafdgfdg
  1. 处理停用词清洗程序

  2. java程序代码,处理停用词清洗,代码中源文件是dat格式,但是读取方法与txt类型无异
  3. 所属分类:管理软件

    • 发布日期:2018-09-29
    • 文件大小:2048
    • 提供者:weixin_42031822
  1. 盘古分词字典dict.dct 以及bin下面dict文件夹下面的txt文件

  2. 盘古分词字典dict.dct 以及bin下面dict文件夹下面的txt文件 包含 ChsDoubleName1.txt ChsDoubleName2.txt ChsSingleName.txt Stopword.txt Synonym.txt Wildcard.txt
  3. 所属分类:C#

    • 发布日期:2019-04-02
    • 文件大小:1048576
    • 提供者:yeagoodidea
  1. 停词表stop_words_eng.txt

  2. 停词表,可用于文档倒排索引中。人类语言包含很多功能词。与其他词相比,功能词没有什么实际含义。最普遍的功能词是限定词(“the”、“a”、“an”、“that”、和“those”),这些词帮助在文本中描述名词和表达概念,如地点或数量。介词如:“over”,“under”,“above” 等表示两个词的相对位置。 这些功能词的两个特征促使在搜索引擎的文本处理过程中对其特殊对待。第一,这些功能词极其普遍。记录这些词在每一个文档中的数量需要很大的磁盘空间。第二,由于它们的普遍性和功能,这些词很少单独表
  3. 所属分类:Hadoop

    • 发布日期:2019-04-13
    • 文件大小:6144
    • 提供者:june_xixi
  1. ik-analyzer-solr7.zip

  2. 1.ik中文分词器适配最新版本solr7和solr8,下载后解压,将target下的ik-analyzer-7.7.1.jar包放入Solr服务的`Jetty`或`Tomcat`的`webapp/WEB-INF/lib/`目录下。 2.将`resources`目录下的5个配置文件放入solr服务的`Jetty`或`Tomcat`的`webapp/WEB-INF/classes/`目录下; ```console ① IKAnalyzer.cfg.xml ② ext.dic ③ stopword.
  3. 所属分类:Java

    • 发布日期:2019-05-15
    • 文件大小:37748736
    • 提供者:weixin_42133396
  1. 中文分词器IK Analyzer 2012FF_hf1_Solr4.x.rar

  2. 内容包括:doc、IKAnalyzer.cfg.xml、IKAnalyzer2012FF_u1.jar、IKAnalyzer中文分词器V2012_FF使用手册.pdf、LICENSE.txt、NOTICE.txt、stopword.dic
  3. 所属分类:Java

    • 发布日期:2019-07-24
    • 文件大小:2097152
    • 提供者:sunwws
  1. stopwordsC.txt

  2. 中文分词所需的中文停止词文档 https://blog.csdn.net/weixin_46124302/article/details/105065081 我的本篇博文所需材料,使用方法本篇博文中略有涉及 如果搜索引擎要将这些词都索引的话,那么几乎每个网站都会被索引,也就是说工作量巨大。可以毫不夸张的说句,只要是个英文网站都会用到a或者是the。那么这些英文的词跟我们中文有什么关系呢? 在中文网站里面其实也存在大量的stopword,我们称它为停止词。比如,我们前面这句话,“在”、“里面
  3. 所属分类:Python

    • 发布日期:2020-03-24
    • 文件大小:9216
    • 提供者:weixin_46124302
  1. IKAnalyzer2012_u6中文分词器以及手册正式版.zip

  2. IKAnalyzer2012_u6中文分词器以及手册正式版 Mode LastWriteTime Length Name ---- ------------- ------ ----
  3. 所属分类:互联网

    • 发布日期:2020-06-06
    • 文件大小:2097152
    • 提供者:blackwall2010
  1. stopword.txt

  2. 内涵3000多个中文停用词,很有用。希望能够帮到大家,仅限个人学习使用,若有其他用途,后果自负。:总的来看 总的来说 总的说来 总而言之 总之 纵 纵令 纵然 纵使 遵照 作为 兮 呃 呗 咚 咦 喏 啐 喔唷 嗬 嗯
  3. 所属分类:机器学习

    • 发布日期:2020-07-14
    • 文件大小:26624
    • 提供者:weixin_45042729
  1. datalab/jdItemAnalysis-数据集

  2. not.csv duihuakuan.jpg degree.csv neg_com.csv stopword.txt pos_com.csv y.csv BosonNLP_sentiment_score.txt comment.csv
  3. 所属分类:其它

    • 发布日期:2021-03-19
    • 文件大小:10485760
    • 提供者:weixin_38745925
  1. Stopword Lists for 19 Languages 19种语言的停用词列表-数据集

  2. 有些单词(例如英语中的“ the”或“ and”)在演讲和写作中经常使用。对于大多数自然语言处理应用程序,您将希望删除这些非常常见的单词。通常使用手工编制的“停用词”列表来完成此操作。该数据集包含19种语言的停用词列表。 arabicST.txt bengaliST.txt bulgarianST.txt czechST.txt englishST.txt finnishST.txt frenchST.txt germanST.txt hindiST.txt hungaria
  3. 所属分类:其它

    • 发布日期:2021-03-18
    • 文件大小:21504
    • 提供者:weixin_38610815
  1. stopwords-数据集

  2. stopword.txt
  3. 所属分类:其它

    • 发布日期:2021-03-15
    • 文件大小:18432
    • 提供者:weixin_38623707
  1. stopword.txt

  2. 情感分析、文本挖掘分析中文停用词大全
  3. 所属分类:机器学习

    • 发布日期:2021-01-27
    • 文件大小:12288
    • 提供者:yawei_liu1688