您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 已整理 停用词表 符号、英文、中文应删除词集合

  2. 压缩包里含四个文本文档 1、符号stopWord.txt (1KB) 2、英文stopWord.txt (3KB) 3、中文stopWord.txt (8KB) 4、集合stopWord.txt (11KB) 其中第四个文档是前三个文档的集合。 此是本人实验过程中搜集整理的结果(以前的老版本加上自己整合的)。 已做预处理等,保证不重复。
  3. 所属分类:专业指导

    • 发布日期:2010-08-26
    • 文件大小:11264
    • 提供者:djlhoho
  1. 中文停用词表,比较全面。。。。

  2. 中文停用词表,1000词左右,没有对数字进行处理
  3. 所属分类:专业指导

    • 发布日期:2010-10-23
    • 文件大小:7168
    • 提供者:cqdrdar
  1. 信息检索汉语停用词表

  2. 停用词其实至少一种叫法。它是指文本中出现频率很高,但实际意义又不大的词,主要指副词、虚词、语气词等。如“是”、“而是”等。 它主要用在信息检索中。在为文本或网页建立索引的时候,会去掉这些词。
  3. 所属分类:专业指导

    • 发布日期:2010-12-23
    • 文件大小:7168
    • 提供者:yucaocong
  1. stopword 中文停用词

  2. stopword 中文停用词 做文本分类器所需要的。 stopword 中文停用词 做文本分类器所需要的。
  3. 所属分类:数据库

    • 发布日期:2011-12-03
    • 文件大小:3072
    • 提供者:fx397993401
  1. Lucene初级教程

  2. Lucene初级教程Lucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。 2 lucene的工作方式 lucene提供的服务实际包含两部分:一入一出。所谓入是写入,即将你提供的源(本质是字符串)写入索引或者将其从索引中删除;所谓出是读出,即向用户提供全文搜索服务,让用户可以通过关键词定位源。 2.1写入流程 源字符串首先经过analyzer处理,包括:分词,分成一个个单词
  3. 所属分类:网页制作

    • 发布日期:2013-03-01
    • 文件大小:320512
    • 提供者:jieweixiaorong
  1. IKAnalyzer2012_u6

  2. 资源包中包含 1、《IKAnalyzer中文分词器V2012使用手册》 2、IKAnalyzer2012.jar(主jar包) 3、IKAnalyzer.cfg.xml(分词器扩展配置文件) 4、stopword.dic(停止词典) 5、LICENSE.TXT;NOTICE.TXT(版权声明)
  3. 所属分类:Java

    • 发布日期:2014-11-21
    • 文件大小:2097152
    • 提供者:njustgirl
  1. Goose python页面抓取

  2. Some users want to use Goose for Chinese content. Chinese word segmentation is way more difficult to deal with than occidental languages. Chinese needs a dedicated StopWord analyser that need to be passed to the config object >>> from goose
  3. 所属分类:Python

    • 发布日期:2014-12-01
    • 文件大小:59392
    • 提供者:csvips1
  1. IKAnalyzer2012_u6 IKAnalyzer.cfg.xml stopword.dic

  2. 包含IKAnalyzer2012_u6,IKAnalyzer.cfg.xml和stopword.dic全部官网下载。
  3. 所属分类:硬件开发

  1. 使用IK Analyzer实现中文分词之Java实现(包含所有工具包)

  2. 1、lucene-core-3.6.0.jar 2、IKAnalyzer2012.jar(主jar包) 3、IKAnalyzer.cfg.xml(分词器扩展配置文件) 4、stopword.dic(停止词典) 5、IkSegmentation.java(样例类)
  3. 所属分类:Java

    • 发布日期:2015-03-30
    • 文件大小:3145728
    • 提供者:luozhipeng2011
  1. Luence+Ikanalyzer+stopword+dic

  2. stopword+dic 分词器分析
  3. 所属分类:Java

    • 发布日期:2017-02-19
    • 文件大小:3145728
    • 提供者:qq_20702997
  1. IKAnalyzer2012.zip 包含stopword.dic

  2. IKAnalyzer2012.zip 包含stopword.dic
  3. 所属分类:Java

    • 发布日期:2017-06-10
    • 文件大小:2097152
    • 提供者:ahaha413525642
  1. 搜索引擎 solr stopword 停词表

  2. 停词 分词 搜索引擎 solr elasticsearch lucene stopword
  3. 所属分类:Web开发

    • 发布日期:2018-01-10
    • 文件大小:38912
    • 提供者:zwxiaole
  1. stopword

  2. 如果你是一个searcher,那么你一定需要stopword;如果你不是,那么快点学习一下吧!搜索可是一项很有趣的技术啊
  3. 所属分类:专业指导

    • 发布日期:2007-06-11
    • 文件大小:3072
    • 提供者:kof4467
  1. IK-Analyzer-2012FF_含u1jar

  2. 含以下文件: IKAnalyzer2012_FF.jar IKAnalyzer2012FF_u1.jar IKAnalyzer.cfg.xml stopword.dic
  3. 所属分类:Java

    • 发布日期:2018-06-25
    • 文件大小:4194304
    • 提供者:patric168
  1. 莎士比亚文集词频统计并行化算法_实验文件

  2. 这是《高校云计算应用创新大赛》里的最后一道题,题目是莎士比亚文集词频统计并行化算法。由于原网站上的实验文件已经无法下载了,所以这里上传一份,包含 shakespear.zip、stopword.txt.
  3. 所属分类:spark

    • 发布日期:2018-02-26
    • 文件大小:1048576
    • 提供者:trueyaoyin
  1. 数据分析中最全停用词之stopword

  2. 该文档内有已经总结好的所有常见停用词,适用于数据分析、数据挖掘方面,尤其是分析用户情感、拆分用户评论、商品评价等方面,对于去除数据的冗余性有很大的作用,可与jieba库一起使用
  3. 所属分类:机器学习

    • 发布日期:2020-03-17
    • 文件大小:15360
    • 提供者:weixin_43656359
  1. 搜索引擎无用词 停用词 stopWord.xlsx

  2. 搜索引擎开发中有一类词叫停止词,是由英文单词:stopword翻译过来的,原来在英语里面会遇到很多a,the,or等使用频率很多的字或词,常为冠词、介词、副词或连词等。如果搜索引擎要将这些词都索引的话,那么几乎每个网站都会被索引,也就是说工作量巨大。可以毫不夸张的说句,只要是个英文网站都会用到a或者是the。那么这些英文的词跟我们中文有什么关系呢? 在中文网站里面其实也存在大量的stopword,我们称它为停止词。比如,我们前面这句话,“在”、“里面”、“也”、“的”、“它”、“为”这些词都是停
  3. 所属分类:其它

    • 发布日期:2020-02-13
    • 文件大小:25600
    • 提供者:qq_16454809
  1. stopword.zip

  2. 只要2分,不想某些资料。明明可以google。还要动则二三十分。是不是看国人好骗。收个两分混口饭吃!
  3. 所属分类:机器学习

    • 发布日期:2020-07-07
    • 文件大小:5120
    • 提供者:znb_booker
  1. stopword.txt

  2. 内涵3000多个中文停用词,很有用。希望能够帮到大家,仅限个人学习使用,若有其他用途,后果自负。:总的来看 总的来说 总的说来 总而言之 总之 纵 纵令 纵然 纵使 遵照 作为 兮 呃 呗 咚 咦 喏 啐 喔唷 嗬 嗯
  3. 所属分类:机器学习

    • 发布日期:2020-07-14
    • 文件大小:26624
    • 提供者:weixin_45042729
  1. stopword.txt

  2. 情感分析、文本挖掘分析中文停用词大全
  3. 所属分类:机器学习

    • 发布日期:2021-01-27
    • 文件大小:12288
    • 提供者:yawei_liu1688
« 12 3 4 »