点数信息
www.dssz.net
注册会员
|
设为首页
|
加入收藏夹
您好,欢迎光临本网站!
[请登录]
!
[注册会员]
!
首页
移动开发
云计算
大数据
数据库
游戏开发
人工智能
网络技术
区块链
操作系统
模糊查询
热门搜索:
源码
Android
整站
插件
识别
p2p
游戏
算法
更多...
在线客服QQ:632832888
当前位置:
资源下载
搜索资源 - jieba停用词表
下载资源分类
移动开发
开发技术
课程资源
网络技术
操作系统
安全技术
数据库
行业
服务器应用
存储
信息化
考试认证
云计算
大数据
跨平台
音视频
游戏开发
人工智能
区块链
在结果中搜索
所属系统
Windows
Linux
FreeBSD
Unix
Dos
PalmOS
WinCE
SymbianOS
MacOS
Android
开发平台
Visual C
Visual.Net
Borland C
CBuilder
Dephi
gcc
VBA
LISP
IDL
VHDL
Matlab
MathCAD
Flash
Xcode
Android STU
LabVIEW
开发语言
C/C++
Pascal
ASM
Java
PHP
Basic/ASP
Perl
Python
VBScript
JavaScript
SQL
FoxBase
SHELL
E语言
OC/Swift
文件类型
源码
程序
CHM
PDF
PPT
WORD
Excel
Access
HTML
Text
资源分类
搜索资源列表
中文停用词表
中文停用词表,1208个停用词,适用于文本分析,结合jieba适用,对文本数据进行必要清洗
所属分类:
Python
发布日期:2015-01-21
文件大小:7168
提供者:
lin370
project.rar
该代码实现了豆瓣影评的多页爬取,并制作成词云显示 整个实验主要分成以下三个部分,下面对每个部分作一个简单的说明。 1.爬取网页内容 2.对数据进行简单的清洗 逐行用jieba分词,利用停用词表去除如“的”和“我们”这样对于主题分析并无帮助的功能词,同时借助re库还能对处理的词性进行选择。 3.制作词云 手动计算词频,利用 WordCloud()函数基于词创建词云,这里选择词频最高的 10 个词,同时可以设置词云背景颜色,图片,设置最大显示的字数,字体最大值,设置有多少种随机生成状态,即有多少种
所属分类:
深度学习
发布日期:2019-05-15
文件大小:67584
提供者:
sinat_37819543
stopwords.txt
最全停用词表,现在对于中文分词,分词工具有很多种,比如说:jieba分词、thulac、SnowNLP等。在这篇文档中,笔者使用的jieba分词,并且基于python3环境,选择jieba分词的理由是其比较简单易学,容易上手,并且分词效果还很不错。
所属分类:
机器学习
发布日期:2019-10-13
文件大小:20480
提供者:
sunlinglingsss
结巴jieba分词中文分词停用词表2000条数据
结巴中文分词停用表,整合百度分词、哈工大等停用词表2000余条数据 即拿即用,效果好,提升分词速度准确率。
所属分类:
机器学习
发布日期:2020-08-03
文件大小:16384
提供者:
cjqbg
python实现关键词提取的示例讲解
新人小菜鸟又来写博客啦!!!没人表示不开心~~(>_<)~~ 今天我来弄一个简单的关键词提取的代码 文章内容关键词的提取分为三大步: (1) 分词 (2) 去停用词 (3) 关键词提取 分词方法有很多,我这里就选择常用的结巴jieba分词;去停用词,我用了一个停用词表。 具体代码如下: import jieba import jieba.analyse #第一步:分词,这里使用结巴分词全模式 text = '''新闻,也叫消息,是指报纸、电台、电视台、互联网经常使用的记录社会
所属分类:
其它
发布日期:2020-12-23
文件大小:58368
提供者:
weixin_38605538
python实现TF-IDF算法解析
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。 同样,理论我这里不再赘述,因为和阮一峰大神早在2013年就将TF-IDF用一种非常通俗的方式讲解出来 TF-IDF与余弦相似性的应用(一):自动提取关键词 材料 1.语料库(已分好词) 2.停用词表(哈工大停用词表) 3.python3.5 语料库的准备 这里使用的语料库是《人民日报》2015年1月16日至1月18日的发表的新闻。并且在进行TFI
所属分类:
其它
发布日期:2020-12-23
文件大小:491520
提供者:
weixin_38729022