搜索资源 - jieba停用词表 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - jieba停用词表

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

中文停用词表
中文停用词表，1208个停用词，适用于文本分析，结合jieba适用，对文本数据进行必要清洗
所属分类：Python
- 发布日期：2015-01-21
- 文件大小：7168
- 提供者：lin370

project.rar
该代码实现了豆瓣影评的多页爬取，并制作成词云显示整个实验主要分成以下三个部分，下面对每个部分作一个简单的说明。 1.爬取网页内容 2.对数据进行简单的清洗逐行用jieba分词，利用停用词表去除如“的”和“我们”这样对于主题分析并无帮助的功能词，同时借助re库还能对处理的词性进行选择。 3.制作词云手动计算词频，利用 WordCloud()函数基于词创建词云，这里选择词频最高的 10 个词，同时可以设置词云背景颜色，图片，设置最大显示的字数，字体最大值，设置有多少种随机生成状态，即有多少种
所属分类：深度学习
- 发布日期：2019-05-15
- 文件大小：67584
- 提供者：sinat_37819543

stopwords.txt
最全停用词表，现在对于中文分词，分词工具有很多种，比如说：jieba分词、thulac、SnowNLP等。在这篇文档中，笔者使用的jieba分词，并且基于python3环境，选择jieba分词的理由是其比较简单易学，容易上手，并且分词效果还很不错。
所属分类：机器学习
- 发布日期：2019-10-13
- 文件大小：20480
- 提供者：sunlinglingsss

结巴jieba分词中文分词停用词表2000条数据
结巴中文分词停用表，整合百度分词、哈工大等停用词表2000余条数据即拿即用，效果好，提升分词速度准确率。
所属分类：机器学习
- 发布日期：2020-08-03
- 文件大小：16384
- 提供者：cjqbg

python实现关键词提取的示例讲解
新人小菜鸟又来写博客啦！！！没人表示不开心~~(>_<)~~ 今天我来弄一个简单的关键词提取的代码文章内容关键词的提取分为三大步：（1）分词（2）去停用词（3）关键词提取分词方法有很多，我这里就选择常用的结巴jieba分词；去停用词，我用了一个停用词表。具体代码如下： import jieba import jieba.analyse #第一步：分词，这里使用结巴分词全模式 text = '''新闻，也叫消息，是指报纸、电台、电视台、互联网经常使用的记录社会
所属分类：其它
- 发布日期：2020-12-23
- 文件大小：58368
- 提供者：weixin_38605538

python实现TF-IDF算法解析
TF-IDF（term frequency–inverse document frequency）是一种用于信息检索与数据挖掘的常用加权技术。同样，理论我这里不再赘述，因为和阮一峰大神早在2013年就将TF-IDF用一种非常通俗的方式讲解出来 TF-IDF与余弦相似性的应用（一）：自动提取关键词材料 1.语料库（已分好词） 2.停用词表（哈工大停用词表） 3.python3.5 语料库的准备这里使用的语料库是《人民日报》2015年1月16日至1月18日的发表的新闻。并且在进行TFI
所属分类：其它
- 发布日期：2020-12-23
- 文件大小：491520
- 提供者：weixin_38729022