您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 中文停用词表

  2. 中文停用词表,1208个停用词,适用于文本分析,结合jieba适用,对文本数据进行必要清洗
  3. 所属分类:Python

    • 发布日期:2015-01-21
    • 文件大小:7168
    • 提供者:lin370
  1. project.rar

  2. 该代码实现了豆瓣影评的多页爬取,并制作成词云显示 整个实验主要分成以下三个部分,下面对每个部分作一个简单的说明。 1.爬取网页内容 2.对数据进行简单的清洗 逐行用jieba分词,利用停用词表去除如“的”和“我们”这样对于主题分析并无帮助的功能词,同时借助re库还能对处理的词性进行选择。 3.制作词云 手动计算词频,利用 WordCloud()函数基于词创建词云,这里选择词频最高的 10 个词,同时可以设置词云背景颜色,图片,设置最大显示的字数,字体最大值,设置有多少种随机生成状态,即有多少种
  3. 所属分类:深度学习

    • 发布日期:2019-05-15
    • 文件大小:67584
    • 提供者:sinat_37819543
  1. stopwords.txt

  2. 最全停用词表,现在对于中文分词,分词工具有很多种,比如说:jieba分词、thulac、SnowNLP等。在这篇文档中,笔者使用的jieba分词,并且基于python3环境,选择jieba分词的理由是其比较简单易学,容易上手,并且分词效果还很不错。
  3. 所属分类:机器学习

    • 发布日期:2019-10-13
    • 文件大小:20480
    • 提供者:sunlinglingsss
  1. 结巴jieba分词中文分词停用词表2000条数据

  2. 结巴中文分词停用表,整合百度分词、哈工大等停用词表2000余条数据 即拿即用,效果好,提升分词速度准确率。
  3. 所属分类:机器学习

    • 发布日期:2020-08-03
    • 文件大小:16384
    • 提供者:cjqbg
  1. python实现关键词提取的示例讲解

  2. 新人小菜鸟又来写博客啦!!!没人表示不开心~~(>_<)~~ 今天我来弄一个简单的关键词提取的代码 文章内容关键词的提取分为三大步: (1) 分词 (2) 去停用词 (3) 关键词提取 分词方法有很多,我这里就选择常用的结巴jieba分词;去停用词,我用了一个停用词表。 具体代码如下: import jieba import jieba.analyse #第一步:分词,这里使用结巴分词全模式 text = '''新闻,也叫消息,是指报纸、电台、电视台、互联网经常使用的记录社会
  3. 所属分类:其它

    • 发布日期:2020-12-23
    • 文件大小:58368
    • 提供者:weixin_38605538
  1. python实现TF-IDF算法解析

  2. TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。 同样,理论我这里不再赘述,因为和阮一峰大神早在2013年就将TF-IDF用一种非常通俗的方式讲解出来 TF-IDF与余弦相似性的应用(一):自动提取关键词 材料 1.语料库(已分好词) 2.停用词表(哈工大停用词表) 3.python3.5 语料库的准备 这里使用的语料库是《人民日报》2015年1月16日至1月18日的发表的新闻。并且在进行TFI
  3. 所属分类:其它

    • 发布日期:2020-12-23
    • 文件大小:491520
    • 提供者:weixin_38729022