您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. python的中文分词库smallseg

  2. python的中文分词库有多个,jieba、thulac都可以在GitHub上下载到,但是smallseg需要在code.google上下载,所以只上传了smallseg
  3. 所属分类:搜索引擎

    • 发布日期:2018-01-03
    • 文件大小:1048576
    • 提供者:qq_33363973
  1. jieba-master

  2. 中文分词工具jieba, 一个python实现的分词库,对中文有着很强大的分词能力。支持三种分词模式: a. 精确模式,试图将句子最精确地切开,适合文本分析; b. 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; c. 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
  3. 所属分类:深度学习

    • 发布日期:2018-03-18
    • 文件大小:11534336
    • 提供者:kingwenming
  1. 第三方库jieba.zip

  2. 分享python jieba库 优秀的第三方中文分词库
  3. 所属分类:Python

    • 发布日期:2020-07-21
    • 文件大小:18874368
    • 提供者:weixin_44142358
  1. Python中文分词库jieba,pkusegwg性能准确度比较

  2. 主要介绍了Python中文分词库jieba,pkusegwg性能准确度比较,需要的朋友可以参考下
  3. 所属分类:其它

    • 发布日期:2020-09-17
    • 文件大小:549888
    • 提供者:weixin_38744803
  1. python中文分词库jieba使用方法详解

  2. 主要介绍了python中文分词库jieba使用方法详解,需要的朋友可以参考下
  3. 所属分类:其它

    • 发布日期:2020-09-17
    • 文件大小:104448
    • 提供者:weixin_38589795
  1. python使用jieba实现中文分词去停用词方法示例

  2. jieba分词,完全开源,有集成的python库,简单易用。下面这篇文章主要给大家介绍了关于python使用jieba实现中文分词去停用词的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考借鉴,下面来一起看看吧。
  3. 所属分类:其它

    • 发布日期:2020-09-20
    • 文件大小:47104
    • 提供者:weixin_38530202
  1. Python实现简单的文本相似度分析操作详解

  2. 本文实例讲述了Python实现简单的文本相似度分析操作。分享给大家供大家参考,具体如下: 学习目标: 1.利用gensim包分析文档相似度 2.使用jieba进行中文分词 3.了解TF-IDF模型 环境: Python 3.6.0 |Anaconda 4.3.1 (64-bit) 工具: jupyter notebook 注:为了简化问题,本文没有剔除停用词“stop-word”。实际应用中应该要剔除停用词。 首先引入分词API库jieba、文本相似度库gensim import jieba
  3. 所属分类:其它

    • 发布日期:2020-12-24
    • 文件大小:71680
    • 提供者:weixin_38583286
  1. python实现的一只从百度开始不断搜索的小爬虫

  2. 文中用到了BeautifulSoup这个库, 目的是处理html文档分析的, 因为我只是提取了title的关键字,所以可以用正则表达式代替, 还有一个库是jieba, 这个库是中文分词的作用, 再有一个库是 chardet, 用来判断字符的编码, 本想多线程的, 但是自认为被搞糊涂了,就放弃了 复制代码 代码如下:#coding:utf-8import reimport urllibimport urllib2import sysimport timeimport Queue import th
  3. 所属分类:其它

    • 发布日期:2020-12-24
    • 文件大小:39936
    • 提供者:weixin_38518376
  1. python生成词云的实现方法(推荐)

  2. 期末复习比较忙过段时间来专门写scrapy框架使用,今天介绍如何用python生成词云,虽然网上有很多词云生成工具,不过自己用python来写是不是更有成就感。 今天要生成的是励志歌曲的词云,百度文库里面找了20来首,如《倔强》,海阔天空是,什么的大家熟悉的。 所要用到的python库有 jieba(一个中文分词库)、wordcould 、matplotlib、PIL、numpy。 首先我们要做的是读取歌词。我将歌词存在了文件目录下励志歌曲文本中。 现在来读取他 #encoding=gbk
  3. 所属分类:其它

    • 发布日期:2020-12-24
    • 文件大小:118784
    • 提供者:weixin_38707356
  1. 浅谈python jieba分词模块的基本用法

  2. jieba(结巴)是一个强大的分词库,完美支持中文分词,本文对其基本用法做一个简要总结。 特点 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词 支持自定义词典 MIT 授权协议 安装jieba pip install jieba 简单用法 结巴分词分为三
  3. 所属分类:其它

    • 发布日期:2020-12-23
    • 文件大小:97280
    • 提供者:weixin_38713057
  1. 统计文本词频并输出为Excel表格形式——Python实现

  2. 统计文本词频并输出为Excel表格形式——Python实现 本次实例主要是熟练对中文分词库_jieba库,以及二维数据存储_csv库的使用。 目录 简单介绍两个库的使用 实例问题及问题分析 Python实现 一、简单介绍两个库的使用 jieba库:中文分词库,将中文文本分解为单个词语进行处理。 jeba.lcut(s):精确模式,对原文本进行词语拆分,无冗余。 jieba.lcut(s,cut_all=True):全模式,对文本进行拆分,列出所以可以组成的词语,存在冗余。 jieba.lcut_
  3. 所属分类:其它

    • 发布日期:2020-12-23
    • 文件大小:94208
    • 提供者:weixin_38640443
  1. 统计文本词频并输出为Excel表格形式——Python实现

  2. 统计文本词频并输出为Excel表格形式——Python实现 本次实例主要是熟练对中文分词库_jieba库,以及二维数据存储_csv库的使用。 目录 简单介绍两个库的使用 实例问题及问题分析 Python实现 一、简单介绍两个库的使用 jieba库:中文分词库,将中文文本分解为单个词语进行处理。 jeba.lcut(s):精确模式,对原文本进行词语拆分,无冗余。 jieba.lcut(s,cut_all=True):全模式,对文本进行拆分,列出所以可以组成的词语,存在冗余。 jieba.lcut_
  3. 所属分类:其它

    • 发布日期:2020-12-23
    • 文件大小:95232
    • 提供者:weixin_38629362
  1. python日记Day08——文本词频统计(中英文)

  2. python日记——文本词频统计(中英文) 一、jieba库的基本介绍 中文文本词频统计需要用到第三方库:jieba; jieba库是优秀的中文分词第三方库,需要额外安装; jieba库分词依靠中文词库,确定汉字之间的关联概率; jieba库分词有三种模式: 1、精确模式:把文本精确的切分开,不存在冗余单词; print(jieba.lcut("时间一定会给你最好的答案")) #['时间','一定', '会', '给', '你', '最好', '的', '答案'] 2、全模式:把文本中所有可能的
  3. 所属分类:其它

    • 发布日期:2020-12-23
    • 文件大小:68608
    • 提供者:weixin_38658982
  1. #Python入门(八)##太原理工大学机器人团队20天学习打卡day8

  2. 今日主讲字典类型及其应用和jieba库 字典类型 可以理解为”映射“,一种键(索引)和值(数据)之间的对应 键值对:键是数据索引的扩展 字典是键值对的集合,键值对之间无序 采用大括号{}和dict创建,键值对用冒号:表示 如: a={“name”:“太原理工大学”,“address”:”山西太原”} ~~d[“name”] 对应’太原理工大学’ 值=字典变量[键] 字符类型操作函数和方法 字典类型应用场景 映射无处不在,键值对无处不在 例如:统计数据出现的次数,数据是键,次数是值 补充说明:
  3. 所属分类:其它

    • 发布日期:2020-12-22
    • 文件大小:439296
    • 提供者:weixin_38731123
  1. MOOC《Python语言程序设计》第6周练习题

  2. 这周讲解了组合数据类型,重点介绍表达和处理一组数据的方法,涉及到多种数据类型,包括:集合类型、序列类型(含元组类型和列表类型)和字典类型;讲解2个颇有用处的实例:基本统计值计算和文本词频统计,其中,即有英文Hamlet的词频统计,也有中文《三国演义》的人物出场统计;进一步讲解用于中文分词的jieba库,从此以后,处理中英文文本、做些统计分析将不再是问题! 练习1:基本统计值的计算(也就是课程中的实例9:基本统计值计算) 描述: 获取以逗号分隔的多个数据输入(输入为一行),计算基本统计值(平均值、
  3. 所属分类:其它

    • 发布日期:2020-12-21
    • 文件大小:102400
    • 提供者:weixin_38723516
  1. Python中文分词库jieba,pkusegwg性能准确度比较

  2. 中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组。英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是同个含义,因此,中文分词相比英文分词难度高很多。 分词主要用于NLP 自然语言处理(Natural Language Processing),使用场景有: 搜索优化,关键词提取(百度指数) 语义分析,智能问答系统(客服系统) 非结构化文本媒体内容,如社交信息(微博热榜) 文本聚类,根据内容生成分类(行业分类) Python的
  3. 所属分类:其它

    • 发布日期:2020-12-20
    • 文件大小:655360
    • 提供者:weixin_38717031
  1. Python jieba库用法及实例解析

  2. 1、jieba库基本介绍 (1)、jieba库概述 jieba是优秀的中文分词第三方库 – 中文文本需要通过分词获得单个的词语 – jieba是优秀的中文分词第三方库,需要额外安装 – jieba库提供三种分词模式,最简单只需掌握一个函数 (2)、jieba分词的原理 Jieba分词依靠中文词库 – 利用一个中文词库,确定汉字之间的关联概率 – 汉字间概率大的组成词组,形成分词结果 – 除了分词,用户还可以添加自定义的词组 jieba库使用说明 (1)、jieba分词的三种模式
  3. 所属分类:其它

    • 发布日期:2021-01-02
    • 文件大小:258048
    • 提供者:weixin_38622849
  1. nlp_windows_exe_ui:python3.6-制作一个包含NLP基本功能系统(Windows exe)自然语言处理系统。系统功能:分词,词性标注,关键词提取,文本分类-源码

  2. nlp_windows_exe_ui 介绍 python3.6-制作一个包含NLP基本功能系统(Windows exe)自然语言处理系统。系统功能:分词,词性标注,关键字提取,文本分类;由于要打包成exe的关系,我将原本的项目的多一个文件的集成到一个python文件(合并文件)里,只保留了使用该系统所需要的函数,方便打包,通俗地讲就是,生成生成词向量过程,装袋过程,模型训练过程的,以及一些中间步骤的程序代码,这些有些涉及很多库的,这些打包进去。但是整个项目里的东西是完整的(包括数据) 运行这个系
  3. 所属分类:其它

    • 发布日期:2021-03-15
    • 文件大小:20971520
    • 提供者:weixin_42129113
  1. ciyun:python词云-源码

  2. python实现词云功能 技术栈 jieba中文分词组件 wordcolud词云制作库 枕头模块
  3. 所属分类:其它

    • 发布日期:2021-02-12
    • 文件大小:9437184
    • 提供者:weixin_42132325
  1. python中文分词库jieba使用方法详解

  2. 安装python中文分词库jieba 法1:Anaconda Prompt下输入conda install jieba 法2:Terminal下输入pip3 install jieba 1、分词 1.1、CUT函数简介 cut(sentence, cut_all=False, HMM=True) 返回生成器,遍历生成器即可获得分词的结果 lcut(sentence) 返回分词列表 import jieba sentence = '我爱自然语言处理' # 创建【Tokenizer.cut 生成器
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:107520
    • 提供者:weixin_38707356
« 12 »