您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. pymmseg -python分词模块

  2. python分词模块,基于mmseg算法编写,核心代码c++,提供python接口
  3. 所属分类:Python

    • 发布日期:2009-07-18
    • 文件大小:1048576
    • 提供者:tyanly
  1. python 基于 wordcloud + jieba + matplotlib 生成词云

  2. 从txt文本里提取关键词,渲染制作图云 本案例基于python3.6, 相关模块如下,安装都是直接 pip install : wordcloud 作用如其名。本例核心模块,它把我们带权重的关键词渲染成词云 matplotlib 绘图模块,主要作用是把wordcloud生成的图片绘制出来并在窗口展示 numpy 图像处理模块,读取图片生成像素矩阵 PIL (pip install pillow) 图片处理模块, 打开初始化图片 jieba 牛逼的分词模块,因为我是从一个txt文本里提取关键词,
  3. 所属分类:Python

    • 发布日期:2017-11-24
    • 文件大小:3072
    • 提供者:aowoolf
  1. 结巴分词含代码可运行

  2. 在文本数据量非常大的时候,为了提高分词效率,开启并行分词就很有必要了。jieba支持并行分词,基于python自带的multiprocessing模块
  3. 所属分类:机器学习

    • 发布日期:2018-06-08
    • 文件大小:4194304
    • 提供者:jiangyueruyu
  1. Python实验

  2. 遍历给定文档集中所有文档,用jieba进行分词,并统计所有词出现的词频。将统计结果用shelve模块设计实现一个简单的数据库管理程序。至少支持四个查询命令:一、输入词,查询该词的频率。二、输入一个整数k,查询词频中频率最高的k个词。三、输入一个整数n,显示频率大于n的所有词。四、输入?好,显示帮助信息。
  3. 所属分类:讲义

    • 发布日期:2018-11-08
    • 文件大小:3072
    • 提供者:qq_40967964
  1. Python中文分词库Yaha.zip

  2. "哑哈"中文分词,更快或更准确,由你来定义。通过简单定制,让分词模块更适用于你的需求。 "Yaha" You can custom your Chinese Word Segmentation efficiently by using Yaha 基本功能: 精确模式,将句子切成最合理的词。 全模式,所有的可能词都被切成词,不消除歧义。 搜索引擎模式,在精确的基础上再次驿长词进行切分,提高召回率,适合搜索引擎创建索引。 备选路径,可生成最好的多条切词路径,可在此
  3. 所属分类:其它

    • 发布日期:2019-07-16
    • 文件大小:6291456
    • 提供者:weixin_39841856
  1. python实现的读取网页并分词功能示例

  2. 主要介绍了python实现的读取网页并分词功能,结合实例形式分析了Python使用requests模块读取网页,以及jieba库分词的相关操作技巧,需要的朋友可以参考下
  3. 所属分类:其它

    • 发布日期:2020-09-18
    • 文件大小:226304
    • 提供者:weixin_38652090
  1. 浅谈python jieba分词模块的基本用法

  2. 本篇文章主要介绍了浅谈python jieba分词模块的基本用法,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
  3. 所属分类:其它

    • 发布日期:2020-09-21
    • 文件大小:96256
    • 提供者:weixin_38659622
  1. Python英文文本分词(无空格)模块wordninja的使用实例

  2. 今天小编就为大家分享一篇关于Python英文文本分词(无空格)模块wordninja的使用实例,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
  3. 所属分类:其它

    • 发布日期:2020-09-19
    • 文件大小:40960
    • 提供者:weixin_38538950
  1. Python实现爬取并分析电商评论

  2. 现如今各种APP、微信订阅号、微博、购物网站等网站都允许用户发表一些个人看法、意见、态度、评价、立场等信息。针对这些数据,我们可以利用情感分析技术对其进行分析,总结出大量的有价值信息。例如对商品评论的分析,可以了解用户对商品的满意度,进而改进产品;通过对一个人分布内容的分析,了解他的情绪变化,哪种情绪多,哪种情绪少,进而分析他的性格。怎样知道哪些评论是正面的,哪些评论是负面的呢?正面评价的概率是多少呢?   利用python的第三方模块SnowNLP可以实现对评论内容的情感分析预测,SnowNL
  3. 所属分类:其它

    • 发布日期:2020-12-17
    • 文件大小:163840
    • 提供者:weixin_38657457
  1. 用python做一个搜索引擎(Pylucene)的实例代码

  2. 1.什么是搜索引擎? 搜索引擎是“对网络信息资源进行搜集整理并提供信息查询服务的系统,包括信息搜集、信息整理和用户查询三部分”。如图1是搜索引擎的一般结构,信息搜集模块从网络采集信息到网络信息库之中(一般使用爬虫);然后信息整理模块对采集的信息进行分词、去停用词、赋权重等操作后建立索引表(一般是倒排索引)构成索引库;最后用户查询模块就可以识别用户的检索需求并提供检索服务啦。 图1 搜索引擎的一般结构 2. 使用python实现一个简单搜索引擎 2.1 问题分析 从图1看,一个完整的搜索引擎架构
  3. 所属分类:其它

    • 发布日期:2020-12-25
    • 文件大小:139264
    • 提供者:weixin_38609089
  1. python使用jieba实现中文分词去停用词方法示例

  2. 前言 jieba 基于Python的中文分词工具,安装使用非常方便,直接pip即可,2/3都可以,功能强悍,十分推荐。 中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。 分词模块jieba,它是python比较好用的分词模块。待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8 支持三种分词模式       1 精确模式,试图将句子最精确
  3. 所属分类:其它

    • 发布日期:2020-12-23
    • 文件大小:51200
    • 提供者:weixin_38667581
  1. 浅谈python jieba分词模块的基本用法

  2. jieba(结巴)是一个强大的分词库,完美支持中文分词,本文对其基本用法做一个简要总结。 特点 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词 支持自定义词典 MIT 授权协议 安装jieba pip install jieba 简单用法 结巴分词分为三
  3. 所属分类:其它

    • 发布日期:2020-12-23
    • 文件大小:97280
    • 提供者:weixin_38713057
  1. Python中运行有关jieba模块的时候报错:Building prefix dict from the default dictionary …

  2. 人生处处是惊喜,指不定哪一刻出现了莫名其妙的事件……好了,抒情式开头结束,下面进入正文 前几天运行的好好的程序,今天崩了??? 问题出在我的电脑上【狗头.jpg】,它卡了一下,我就无意点了哪,它所有程序报错,我就重启pycharm,然后我别的程序没问题了,有关jieba的程序仍旧报错???? 我盯着程序看了会儿,没找出问题;我接着去百度,似乎没有人出现此类错误;然后,我写了最简单的分词的代码看是不是jieba自己出现问题: import jieba seg_list = jieba.cut("
  3. 所属分类:其它

    • 发布日期:2020-12-21
    • 文件大小:126976
    • 提供者:weixin_38601364
  1. Python英文文本分词(无空格)模块wordninja的使用实例

  2. 在NLP中,数据清洗与分词往往是很多工作开始的第一步,大多数工作中只有中文语料数据需要进行分词,现有的分词工具也已经有了很多了,这里就不再多介绍了。英文语料由于其本身存在空格符所以无需跟中文语料同样处理,如果英文数据中没有了空格,那么应该怎么处理呢? 今天介绍一个工具就是专门针对上述这种情况进行处理的,这个工具叫做:wordninja,地址在这里。 下面简单以实例看一下它的功能: def wordinjaFunc(): ''' https://github.com/yishuihanh
  3. 所属分类:其它

    • 发布日期:2020-12-31
    • 文件大小:51200
    • 提供者:weixin_38587155
  1. pip-services3-expressions-python:Python中Pip.Services的标记器,解析器和表达式计算器-源码

  2. Python中的分词器,解析器和表达式计算器 该模块是多语言微服务工具箱的一部分。 它提供了针对重复计算进行了优化的语法和词法分析器以及表达式计算器。 该模块包含以下软件包: 计算器-表达式计算器 CSV -CSV标记器 IO-支持词法分析的输入/输出实用程序类 小胡子-小胡子模板引擎 断词-词法分析器打破输入字符流转换为标记 变体-可以容纳任何值和运算符的动态对象 快速链接: 使用 将Python软件包安装为 pip install pip_services3_expressions 下
  3. 所属分类:其它

    • 发布日期:2021-03-16
    • 文件大小:3145728
    • 提供者:weixin_42116713
  1. ciyun:python词云-源码

  2. python实现词云功能 技术栈 jieba中文分词组件 wordcolud词云制作库 枕头模块
  3. 所属分类:其它

    • 发布日期:2021-02-12
    • 文件大小:9437184
    • 提供者:weixin_42132325
  1. TextCluster:短文本聚类预处理模块-源码

  2. 短文本聚类 项目介绍 短文本聚类是常用的文本预处理步骤,可以用于洞察文本常见模式,分析设计语义解析规范,加速相似句子查询等。本项目实现了内存友好的短文本聚类方法,并提供了相似句子查询接口。 依赖库 点安装tqdm解霸 使用方法 聚类 python cluster.py --infile ./data/infile \ --output ./data/output 具体参数设置可以参考cluster.py文件内_get_parser()函数参数说明,包含设置分词词典,重置词,匹配采样数,匹配度阈值
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:1048576
    • 提供者:weixin_42131414
  1. jieba-php:“结巴”中文分词:做最好PHP。PHP中文分词,中文断词组件。“ Jieba”(中文为“ to stutter”)中文文本分割:构建为最佳PHP中文单词分割模块-源码

  2. “结巴”中文分词:做最好PHP中文分词,中文断词组件,当前翻译版本为jieba-0.33版本,未来再慢慢往上升级,效能也需要再改善,请有兴趣的开发者一起加入开发!若想使用Python版本请前往 现在已经可以支持繁体中文!只要将字典切换为big模式即可! “ Jieba”(中文为“ to stutter”)中文文本分割:内置为最好PHP中文单词分割模块。 向下滚动以获取英文文档。 线上展示 网站网址: : 网站原始码: : 特征 支持三种分词模式: 1)最小精确模式,试图将句子最精确地
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:20971520
    • 提供者:weixin_42137028
  1. 用Python和WordCloud绘制词云的实现方法(内附让字体清晰的秘笈)

  2. 环境及模块: Win7 64位 Python 3.6.4 WordCloud 1.5.0 Pillow 5.0.0 Jieba 0.39 目标: 绘制安徽省2018年某些科技项目的词云,直观展示热点。 思路: 先提取项目的名称,再用Jieba分词后提取词汇;过滤掉“研发”、“系列”等无意义的词;最后用WordCloud 绘制词云。 扩展: 词云默认是矩形的,本代码采用图片作为蒙版,产生异形词云图。这里用的图片是安徽省地图。 秘笈: 用网上的常规方法绘制的词云,字体有点模糊,秘
  3. 所属分类:其它

    • 发布日期:2021-01-21
    • 文件大小:282624
    • 提供者:weixin_38565801
  1. 《Python学习手册》学习总结

  2. 本篇文章是作者关于在学习了《Python学习手册》以后,分享的学习心得,在此之前,我们先给大家分享一下这本书: 下载地址:Python学习手册第4版 之前为了编写一个svm分词的程序而简单学了下Python,觉得Python很好用,想深入并系统学习一下,了解一些机制,因此开始阅读《Python学习手册》。 在前两章节都是对基本的信息做了概述,我们从第三章开始。 第三章 如何运行程序 import进行模块导入只能运行一次,多次运行需使用reload。 模块往往是变量名的封装,被认为是命名空间。例
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:287744
    • 提供者:weixin_38614287
« 12 »