您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. word2vec词向量训练及中文文本相似度计算 【源码+语料】

  2. 该资源主要参考我的博客:word2vec词向量训练及中文文本相似度计算 http://blog.csdn.net/eastmount/article/details/50637476 其中包括C语言的Word2vec源代码(从官网下载),自定义爬取的三大百科(百度百科、互动百科、维基百科)中文语料,涉及到国家、景区、动物和人物。 同时包括60M的腾讯新闻语料,是一个txt,每行相当于一个新闻。 国家包括了Python的Jieba分词代码,详见博客。 免费资源希望对你有所帮助~
  3. 所属分类:C

    • 发布日期:2016-02-18
    • 文件大小:148897792
    • 提供者:eastmount
  1. Python词云构建_wordcloud+jieba的使用

  2. Python词云构建_wordcloud+jieba的使用,示例代码
  3. 所属分类:Python

    • 发布日期:2017-04-08
    • 文件大小:7340032
    • 提供者:lu_yongchao
  1. 结巴分词含代码可运行

  2. 在文本数据量非常大的时候,为了提高分词效率,开启并行分词就很有必要了。jieba支持并行分词,基于python自带的multiprocessing模块
  3. 所属分类:机器学习

    • 发布日期:2018-06-08
    • 文件大小:4194304
    • 提供者:jiangyueruyu
  1. Python分词系统jieba代码(有注释,无报错)

  2. Python分词系统jieba代码(有注释,无报错)!!!!!!!!!!!!!!!!!!!
  3. 所属分类:Python

    • 发布日期:2018-01-26
    • 文件大小:2048
    • 提供者:sb13btfurygz
  1. 中文词云生成,先通过jieba分词,再调用wordcloud生成词云

  2. 中文分词生成python文件,代码在codes文件中 运行run1.py根据背景图片的颜色生成词云 运行run2.py随机生成词云颜色
  3. 所属分类:Python

    • 发布日期:2018-12-15
    • 文件大小:40894464
    • 提供者:qq_36616602
  1. Python+淘宝网商品数据分析+原代码.txt

  2. 标题:Python 爬取淘宝商品数据挖掘分析实战 项目内容: 本案例选择>> 商品类目:沙发; 筛选条件:天猫、销量从高到低、价格500元以上; 数量:共100页 4400个商品。 分析目的: 1. 对商品标题进行文本分析 词云可视化 2. 不同关键词word对应的sales的统计分析 3. 商品的价格分布情况分析 4. 商品的销量分布情况分析 5. 不同价格区间的商品的平均销量分布 6. 商品价格对销量的影响分析 7. 商品价格对销售额的影响分析 8. 不同省份或城市的商品数量分
  3. 所属分类:Python

    • 发布日期:2019-10-01
    • 文件大小:18432
    • 提供者:qq_37195257
  1. 自然语言处理 中英文分词、词性标注与命名实体识别——文本和代码

  2. 中英文分词工具有很多,今天我们来使用Jieba、SnowNlp、nltk、thunlp、NLPIR、Stanford等六种工具来对给定中英文文本进行分词、词性标注与命名实体识别。
  3. 所属分类:Python

    • 发布日期:2019-05-24
    • 文件大小:7168
    • 提供者:godsolve
  1. python同义词替换的实现(jieba分词)

  2. 主要介绍了python同义词替换的实现(jieba分词),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
  3. 所属分类:其它

    • 发布日期:2020-09-18
    • 文件大小:48128
    • 提供者:weixin_38641764
  1. python使用jieba实现中文分词去停用词方法示例

  2. jieba分词,完全开源,有集成的python库,简单易用。下面这篇文章主要给大家介绍了关于python使用jieba实现中文分词去停用词的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考借鉴,下面来一起看看吧。
  3. 所属分类:其它

    • 发布日期:2020-09-20
    • 文件大小:47104
    • 提供者:weixin_38530202
  1. python jieba 分词的一系列代码

  2. jieba snownlp bs4 等包的使用,包括tf-idf算法等,具体方法见代码注释部分。练习数据也在文件夹中 11111111111
  3. 所属分类:Python

    • 发布日期:2020-11-28
    • 文件大小:5242880
    • 提供者:weixin_44555728
  1. django haystack实现全文检索的示例代码

  2. 全文检索里的组件简介 1. 什么是haystack? 1. haystack是django的开源搜索框架,该框架支持Solr,Elasticsearch,Whoosh, *Xapian*搜索引擎,不用更改代码,直接切换引擎,减少代码量。 2. 搜索引擎使用Whoosh,这是一个由纯Python实现的全文搜索引擎, 没有二进制文件等,比较小巧,配置比较简单,当然性能自然略低。 3. 中文分词Jieba,由于Whoosh自带的是英文分词,对中文的分词支持不是太好,故用jieba替换whoosh的分词
  3. 所属分类:其它

    • 发布日期:2020-12-17
    • 文件大小:131072
    • 提供者:weixin_38712548
  1. python实现关键词提取的示例讲解

  2. 新人小菜鸟又来写博客啦!!!没人表示不开心~~(>_<)~~ 今天我来弄一个简单的关键词提取的代码 文章内容关键词的提取分为三大步: (1) 分词 (2) 去停用词 (3) 关键词提取 分词方法有很多,我这里就选择常用的结巴jieba分词;去停用词,我用了一个停用词表。 具体代码如下: import jieba import jieba.analyse #第一步:分词,这里使用结巴分词全模式 text = '''新闻,也叫消息,是指报纸、电台、电视台、互联网经常使用的记录社会
  3. 所属分类:其它

    • 发布日期:2020-12-23
    • 文件大小:58368
    • 提供者:weixin_38605538
  1. Python中运行有关jieba模块的时候报错:Building prefix dict from the default dictionary …

  2. 人生处处是惊喜,指不定哪一刻出现了莫名其妙的事件……好了,抒情式开头结束,下面进入正文 前几天运行的好好的程序,今天崩了??? 问题出在我的电脑上【狗头.jpg】,它卡了一下,我就无意点了哪,它所有程序报错,我就重启pycharm,然后我别的程序没问题了,有关jieba的程序仍旧报错???? 我盯着程序看了会儿,没找出问题;我接着去百度,似乎没有人出现此类错误;然后,我写了最简单的分词的代码看是不是jieba自己出现问题: import jieba seg_list = jieba.cut("
  3. 所属分类:其它

    • 发布日期:2020-12-21
    • 文件大小:126976
    • 提供者:weixin_38601364
  1. python同义词替换的实现(jieba分词)

  2. TihuanWords.txt文档格式 注意:同一行的词用单个空格隔开,每行第一个词为同行词的替换词。 年休假 年假 年休 究竟 到底 回家场景 我回来了 代码 import jieba def replaceSynonymWords(string1): # 1读取同义词表,并生成一个字典。 combine_dict = {} # synonymWords.txt是同义词表,每行是一系列同义词,用空格分割 for line in open(TihuanWords.txt, r,
  3. 所属分类:其它

    • 发布日期:2020-12-30
    • 文件大小:49152
    • 提供者:weixin_38686080
  1. python实现的读取网页并分词功能示例

  2. 本文实例讲述了python实现的读取网页并分词功能。分享给大家供大家参考,具体如下: 这里使用分词使用最流行的分词包jieba,参考:https://github.com/fxsjy/jieba 或点击此处本站下载jieba库。 代码: import requests from bs4 import BeautifulSoup import jieba # 获取html url = http://finance.ifeng.com/a/20180328/16049779_0.shtml res
  3. 所属分类:其它

    • 发布日期:2021-01-02
    • 文件大小:232448
    • 提供者:weixin_38673548
  1. nlp_windows_exe_ui:python3.6-制作一个包含NLP基本功能系统(Windows exe)自然语言处理系统。系统功能:分词,词性标注,关键词提取,文本分类-源码

  2. nlp_windows_exe_ui 介绍 python3.6-制作一个包含NLP基本功能系统(Windows exe)自然语言处理系统。系统功能:分词,词性标注,关键字提取,文本分类;由于要打包成exe的关系,我将原本的项目的多一个文件的集成到一个python文件(合并文件)里,只保留了使用该系统所需要的函数,方便打包,通俗地讲就是,生成生成词向量过程,装袋过程,模型训练过程的,以及一些中间步骤的程序代码,这些有些涉及很多库的,这些打包进去。但是整个项目里的东西是完整的(包括数据) 运行这个系
  3. 所属分类:其它

    • 发布日期:2021-03-15
    • 文件大小:20971520
    • 提供者:weixin_42129113
  1. 余弦相似性计算及python代码实现过程解析

  2. A:西米喜欢健身 B:超超不爱健身,喜欢打游戏 step1:分词 A:西米/喜欢/健身 B:超超/不/喜欢/健身,喜欢/打/游戏 step2:列出两个句子的并集 西米/喜欢/健身/超超/不/打/游戏 step3:计算词频向量 A:[1,1,1,0,0,0,0] B:[0,1,1,1,1,1,1] step4:计算余弦值 余弦值越大,证明夹角越小,两个向量越相似。 step5:python代码实现 import jieba import jieba.analyse def words2v
  3. 所属分类:其它

    • 发布日期:2021-01-21
    • 文件大小:38912
    • 提供者:weixin_38665822
  1. 用Python和WordCloud绘制词云的实现方法(内附让字体清晰的秘笈)

  2. 环境及模块: Win7 64位 Python 3.6.4 WordCloud 1.5.0 Pillow 5.0.0 Jieba 0.39 目标: 绘制安徽省2018年某些科技项目的词云,直观展示热点。 思路: 先提取项目的名称,再用Jieba分词后提取词汇;过滤掉“研发”、“系列”等无意义的词;最后用WordCloud 绘制词云。 扩展: 词云默认是矩形的,本代码采用图片作为蒙版,产生异形词云图。这里用的图片是安徽省地图。 秘笈: 用网上的常规方法绘制的词云,字体有点模糊,秘
  3. 所属分类:其它

    • 发布日期:2021-01-21
    • 文件大小:282624
    • 提供者:weixin_38565801
  1. python代码如何实现余弦相似性计算

  2. 这篇文章主要介绍了python代码如何实现余弦相似性计算,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 A:西米喜欢健身 B:超超不爱健身,喜欢打游戏 step1:分词 A:西米/喜欢/健身 B:超超/不/喜欢/健身,喜欢/打/游戏 step2:列出两个句子的并集 西米/喜欢/健身/超超/不/打/游戏 step3:计算词频向量 A:[1,1,1,0,0,0,0] B:[0,1,1,1,1,1,1] step4:计算余弦值 余弦值越大,证
  3. 所属分类:其它

    • 发布日期:2021-01-21
    • 文件大小:43008
    • 提供者:weixin_38658086
  1. Python中文分词工具之结巴分词用法实例总结【经典案例】

  2. 本文实例讲述了Python中文分词工具之结巴分词用法。分享给大家供大家参考,具体如下: 结巴分词工具的安装及基本用法,前面的文章《Python结巴中文分词工具使用过程中遇到的问题及解决方法》中已经有所描述。这里要说的内容与实际应用更贴近——从文本中读取中文信息,利用结巴分词工具进行分词及词性标注。 示例代码如下: #coding=utf-8 import jieba import jieba.posseg as pseg import time t1=time.time() f=open(t_
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:111616
    • 提供者:weixin_38535848
« 12 »