搜索资源 - jieba分词python代码 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - jieba分词python代码

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

word2vec词向量训练及中文文本相似度计算【源码+语料】
该资源主要参考我的博客：word2vec词向量训练及中文文本相似度计算 http://blog.csdn.net/eastmount/article/details/50637476 其中包括C语言的Word2vec源代码（从官网下载），自定义爬取的三大百科（百度百科、互动百科、维基百科）中文语料，涉及到国家、景区、动物和人物。同时包括60M的腾讯新闻语料，是一个txt，每行相当于一个新闻。国家包括了Python的Jieba分词代码，详见博客。免费资源希望对你有所帮助~
所属分类：C
- 发布日期：2016-02-18
- 文件大小：148897792
- 提供者：eastmount

Python词云构建_wordcloud+jieba的使用
Python词云构建_wordcloud+jieba的使用，示例代码
所属分类：Python
- 发布日期：2017-04-08
- 文件大小：7340032
- 提供者：lu_yongchao

结巴分词含代码可运行
在文本数据量非常大的时候，为了提高分词效率，开启并行分词就很有必要了。jieba支持并行分词，基于python自带的multiprocessing模块
所属分类：机器学习
- 发布日期：2018-06-08
- 文件大小：4194304
- 提供者：jiangyueruyu

Python分词系统jieba代码（有注释，无报错）
Python分词系统jieba代码（有注释，无报错）！！！！！！！！！！！！！！！！！！！
所属分类：Python
- 发布日期：2018-01-26
- 文件大小：2048
- 提供者：sb13btfurygz

中文词云生成，先通过jieba分词，再调用wordcloud生成词云
中文分词生成python文件，代码在codes文件中运行run1.py根据背景图片的颜色生成词云运行run2.py随机生成词云颜色
所属分类：Python
- 发布日期：2018-12-15
- 文件大小：40894464
- 提供者：qq_36616602

Python+淘宝网商品数据分析+原代码.txt
标题：Python 爬取淘宝商品数据挖掘分析实战项目内容：本案例选择>> 商品类目：沙发；筛选条件：天猫、销量从高到低、价格500元以上；数量：共100页 4400个商品。分析目的： 1. 对商品标题进行文本分析词云可视化 2. 不同关键词word对应的sales的统计分析 3. 商品的价格分布情况分析 4. 商品的销量分布情况分析 5. 不同价格区间的商品的平均销量分布 6. 商品价格对销量的影响分析 7. 商品价格对销售额的影响分析 8. 不同省份或城市的商品数量分
所属分类：Python
- 发布日期：2019-10-01
- 文件大小：18432
- 提供者：qq_37195257

自然语言处理中英文分词、词性标注与命名实体识别——文本和代码
中英文分词工具有很多，今天我们来使用Jieba、SnowNlp、nltk、thunlp、NLPIR、Stanford等六种工具来对给定中英文文本进行分词、词性标注与命名实体识别。
所属分类：Python
- 发布日期：2019-05-24
- 文件大小：7168
- 提供者：godsolve

python同义词替换的实现（jieba分词）
主要介绍了python同义词替换的实现（jieba分词），文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
所属分类：其它
- 发布日期：2020-09-18
- 文件大小：48128
- 提供者：weixin_38641764

python使用jieba实现中文分词去停用词方法示例
jieba分词,完全开源,有集成的python库,简单易用。下面这篇文章主要给大家介绍了关于python使用jieba实现中文分词去停用词的相关资料，文中通过示例代码介绍的非常详细，需要的朋友可以参考借鉴，下面来一起看看吧。
所属分类：其它
- 发布日期：2020-09-20
- 文件大小：47104
- 提供者：weixin_38530202

python jieba 分词的一系列代码
jieba snownlp bs4 等包的使用，包括tf-idf算法等，具体方法见代码注释部分。练习数据也在文件夹中 11111111111
所属分类：Python
- 发布日期：2020-11-28
- 文件大小：5242880
- 提供者：weixin_44555728

django haystack实现全文检索的示例代码
全文检索里的组件简介 1. 什么是haystack？ 1. haystack是django的开源搜索框架，该框架支持Solr,Elasticsearch,Whoosh, *Xapian*搜索引擎，不用更改代码，直接切换引擎，减少代码量。 2. 搜索引擎使用Whoosh，这是一个由纯Python实现的全文搜索引擎，没有二进制文件等，比较小巧，配置比较简单，当然性能自然略低。 3. 中文分词Jieba，由于Whoosh自带的是英文分词，对中文的分词支持不是太好，故用jieba替换whoosh的分词
所属分类：其它
- 发布日期：2020-12-17
- 文件大小：131072
- 提供者：weixin_38712548

python实现关键词提取的示例讲解
新人小菜鸟又来写博客啦！！！没人表示不开心~~(>_<)~~ 今天我来弄一个简单的关键词提取的代码文章内容关键词的提取分为三大步：（1）分词（2）去停用词（3）关键词提取分词方法有很多，我这里就选择常用的结巴jieba分词；去停用词，我用了一个停用词表。具体代码如下： import jieba import jieba.analyse #第一步：分词，这里使用结巴分词全模式 text = '''新闻，也叫消息，是指报纸、电台、电视台、互联网经常使用的记录社会
所属分类：其它
- 发布日期：2020-12-23
- 文件大小：58368
- 提供者：weixin_38605538

Python中运行有关jieba模块的时候报错：Building prefix dict from the default dictionary …
人生处处是惊喜，指不定哪一刻出现了莫名其妙的事件……好了，抒情式开头结束，下面进入正文前几天运行的好好的程序，今天崩了？？？问题出在我的电脑上【狗头.jpg】，它卡了一下，我就无意点了哪，它所有程序报错，我就重启pycharm，然后我别的程序没问题了，有关jieba的程序仍旧报错？？？？我盯着程序看了会儿，没找出问题；我接着去百度，似乎没有人出现此类错误；然后，我写了最简单的分词的代码看是不是jieba自己出现问题： import jieba seg_list = jieba.cut("
所属分类：其它
- 发布日期：2020-12-21
- 文件大小：126976
- 提供者：weixin_38601364

python同义词替换的实现（jieba分词）
TihuanWords.txt文档格式注意：同一行的词用单个空格隔开，每行第一个词为同行词的替换词。年休假年假年休究竟到底回家场景我回来了代码 import jieba def replaceSynonymWords(string1): # 1读取同义词表，并生成一个字典。 combine_dict = {} # synonymWords.txt是同义词表，每行是一系列同义词，用空格分割 for line in open(TihuanWords.txt, r,
所属分类：其它
- 发布日期：2020-12-30
- 文件大小：49152
- 提供者：weixin_38686080

python实现的读取网页并分词功能示例
本文实例讲述了python实现的读取网页并分词功能。分享给大家供大家参考，具体如下：这里使用分词使用最流行的分词包jieba，参考：https://github.com/fxsjy/jieba 或点击此处本站下载jieba库。代码： import requests from bs4 import BeautifulSoup import jieba # 获取html url = http://finance.ifeng.com/a/20180328/16049779_0.shtml res
所属分类：其它
- 发布日期：2021-01-02
- 文件大小：232448
- 提供者：weixin_38673548

nlp_windows_exe_ui:python3.6-制作一个包含NLP基本功能系统（Windows exe）自然语言处理系统。系统功能：分词，词性标注，关键词提取，文本分类-源码
nlp_windows_exe_ui 介绍 python3.6-制作一个包含NLP基本功能系统（Windows exe）自然语言处理系统。系统功能：分词，词性标注，关键字提取，文本分类；由于要打包成exe的关系，我将原本的项目的多一个文件的集成到一个python文件（合并文件）里，只保留了使用该系统所需要的函数，方便打包，通俗地讲就是，生成生成词向量过程，装袋过程，模型训练过程的，以及一些中间步骤的程序代码，这些有些涉及很多库的，这些打包进去。但是整个项目里的东西是完整的（包括数据）运行这个系
所属分类：其它
- 发布日期：2021-03-15
- 文件大小：20971520
- 提供者：weixin_42129113

余弦相似性计算及python代码实现过程解析
A：西米喜欢健身 B：超超不爱健身，喜欢打游戏 step1:分词 A：西米／喜欢／健身 B：超超／不／喜欢／健身，喜欢／打／游戏 step2:列出两个句子的并集西米／喜欢／健身／超超／不／打／游戏 step3:计算词频向量 A：[1,1,1,0,0,0,0] B：[0,1,1,1,1,1,1] step4:计算余弦值余弦值越大，证明夹角越小，两个向量越相似。 step5:python代码实现 import jieba import jieba.analyse def words2v
所属分类：其它
- 发布日期：2021-01-21
- 文件大小：38912
- 提供者：weixin_38665822

用Python和WordCloud绘制词云的实现方法(内附让字体清晰的秘笈)
环境及模块： Win7 64位 Python 3.6.4 WordCloud 1.5.0 Pillow 5.0.0 Jieba 0.39 目标：绘制安徽省2018年某些科技项目的词云，直观展示热点。思路：先提取项目的名称，再用Jieba分词后提取词汇；过滤掉“研发”、“系列”等无意义的词；最后用WordCloud 绘制词云。扩展：词云默认是矩形的，本代码采用图片作为蒙版，产生异形词云图。这里用的图片是安徽省地图。秘笈：用网上的常规方法绘制的词云，字体有点模糊，秘
所属分类：其它
- 发布日期：2021-01-21
- 文件大小：282624
- 提供者：weixin_38565801

python代码如何实现余弦相似性计算
这篇文章主要介绍了python代码如何实现余弦相似性计算,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 A：西米喜欢健身 B：超超不爱健身，喜欢打游戏 step1:分词 A：西米／喜欢／健身 B：超超／不／喜欢／健身，喜欢／打／游戏 step2:列出两个句子的并集西米／喜欢／健身／超超／不／打／游戏 step3:计算词频向量 A：[1,1,1,0,0,0,0] B：[0,1,1,1,1,1,1] step4:计算余弦值余弦值越大，证
所属分类：其它
- 发布日期：2021-01-21
- 文件大小：43008
- 提供者：weixin_38658086

Python中文分词工具之结巴分词用法实例总结【经典案例】
本文实例讲述了Python中文分词工具之结巴分词用法。分享给大家供大家参考，具体如下：结巴分词工具的安装及基本用法，前面的文章《Python结巴中文分词工具使用过程中遇到的问题及解决方法》中已经有所描述。这里要说的内容与实际应用更贴近——从文本中读取中文信息，利用结巴分词工具进行分词及词性标注。示例代码如下： #coding=utf-8 import jieba import jieba.posseg as pseg import time t1=time.time() f=open(t_
所属分类：其它
- 发布日期：2021-01-20
- 文件大小：111616
- 提供者：weixin_38535848

« 12 »