搜索资源 - python中文分词库 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - python中文分词库

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

python的中文分词库smallseg
python的中文分词库有多个，jieba、thulac都可以在GitHub上下载到，但是smallseg需要在code.google上下载，所以只上传了smallseg
所属分类：搜索引擎
- 发布日期：2018-01-03
- 文件大小：1048576
- 提供者：qq_33363973

jieba-master
中文分词工具jieba, 一个python实现的分词库，对中文有着很强大的分词能力。支持三种分词模式： a. 精确模式，试图将句子最精确地切开，适合文本分析； b. 全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义； c. 搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。
所属分类：深度学习
- 发布日期：2018-03-18
- 文件大小：11534336
- 提供者：kingwenming

Java版的BosonNLP分词
玻森专注中文语义分析技术，拥有丰富的经验积累。自主研发千万级中文语料库，为精准和深度的中文语义分析提供坚实基础。一站式解决您的中文语义分析需求。多个语义分析API，从情感倾向、实体、分类等方面。官网只有python版本，现上传Java的实例。
所属分类：Java
- 发布日期：2018-11-16
- 文件大小：8388608
- 提供者：hello_java2018

Python 含中文分词的多项式贝叶斯的增量学习的文本分类.rar
本源码中包括两个Python案例：1、基于潜在狄利克雷分配（LDA）模型的内容主题挖掘。2、基于多项式贝叶斯的增量学习的文本分类。依赖库：sys、re、tarfile、os、numpy、bs4、sklearn 　　程序输入：article.txt、news_data.tar.gz 　　程序输出：打印输出18个主题及新文本的预测主题归属　　程序实现功能：全角转半角、解析文件内容、从原始文件中解析出文本内容和标签数据、以列表形式返回文本中的所有内容和对应标签、交叉检验、将训练集文本数据转换为稀疏
所属分类：其它
- 发布日期：2019-07-10
- 文件大小：18874368
- 提供者：weixin_39840924

Python中文分词库Yaha.zip
"哑哈"中文分词，更快或更准确，由你来定义。通过简单定制，让分词模块更适用于你的需求。 "Yaha" You can custom your Chinese Word Segmentation efficiently by using Yaha 基本功能：精确模式，将句子切成最合理的词。全模式，所有的可能词都被切成词，不消除歧义。搜索引擎模式，在精确的基础上再次驿长词进行切分，提高召回率，适合搜索引擎创建索引。备选路径，可生成最好的多条切词路径，可在此
所属分类：其它
- 发布日期：2019-07-16
- 文件大小：6291456
- 提供者：weixin_39841856

Python-genius基于条件随机域的中文断词库
Genius是一个开源的python中文分词组件，采用 CRF(Conditional Random Field)条件随机场算法。
所属分类：其它
- 发布日期：2019-08-10
- 文件大小：17825792
- 提供者：weixin_39840588

第三方库jieba.zip
分享python jieba库优秀的第三方中文分词库
所属分类：Python
- 发布日期：2020-07-21
- 文件大小：18874368
- 提供者：weixin_44142358

Python中文分词库jieba,pkusegwg性能准确度比较
主要介绍了Python中文分词库jieba,pkusegwg性能准确度比较,需要的朋友可以参考下
所属分类：其它
- 发布日期：2020-09-17
- 文件大小：549888
- 提供者：weixin_38744803

python中文分词库jieba使用方法详解
主要介绍了python中文分词库jieba使用方法详解,需要的朋友可以参考下
所属分类：其它
- 发布日期：2020-09-17
- 文件大小：104448
- 提供者：weixin_38589795

python使用jieba实现中文分词去停用词方法示例
jieba分词,完全开源,有集成的python库,简单易用。下面这篇文章主要给大家介绍了关于python使用jieba实现中文分词去停用词的相关资料，文中通过示例代码介绍的非常详细，需要的朋友可以参考借鉴，下面来一起看看吧。
所属分类：其它
- 发布日期：2020-09-20
- 文件大小：47104
- 提供者：weixin_38530202

python生成词云的实现方法(推荐)
期末复习比较忙过段时间来专门写scrapy框架使用，今天介绍如何用python生成词云，虽然网上有很多词云生成工具，不过自己用python来写是不是更有成就感。今天要生成的是励志歌曲的词云，百度文库里面找了20来首，如《倔强》，海阔天空是，什么的大家熟悉的。所要用到的python库有 jieba（一个中文分词库）、wordcould 、matplotlib、PIL、numpy。首先我们要做的是读取歌词。我将歌词存在了文件目录下励志歌曲文本中。现在来读取他 #encoding=gbk
所属分类：其它
- 发布日期：2020-12-24
- 文件大小：118784
- 提供者：weixin_38707356

浅谈python jieba分词模块的基本用法
jieba（结巴）是一个强大的分词库，完美支持中文分词，本文对其基本用法做一个简要总结。特点支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。支持繁体分词支持自定义词典 MIT 授权协议安装jieba pip install jieba 简单用法结巴分词分为三
所属分类：其它
- 发布日期：2020-12-23
- 文件大小：97280
- 提供者：weixin_38713057

统计文本词频并输出为Excel表格形式——Python实现
统计文本词频并输出为Excel表格形式——Python实现本次实例主要是熟练对中文分词库_jieba库，以及二维数据存储_csv库的使用。目录简单介绍两个库的使用实例问题及问题分析 Python实现一、简单介绍两个库的使用 jieba库：中文分词库，将中文文本分解为单个词语进行处理。 jeba.lcut(s)：精确模式，对原文本进行词语拆分，无冗余。 jieba.lcut(s,cut_all=True)：全模式，对文本进行拆分，列出所以可以组成的词语，存在冗余。 jieba.lcut_
所属分类：其它
- 发布日期：2020-12-23
- 文件大小：94208
- 提供者：weixin_38640443

统计文本词频并输出为Excel表格形式——Python实现
统计文本词频并输出为Excel表格形式——Python实现本次实例主要是熟练对中文分词库_jieba库，以及二维数据存储_csv库的使用。目录简单介绍两个库的使用实例问题及问题分析 Python实现一、简单介绍两个库的使用 jieba库：中文分词库，将中文文本分解为单个词语进行处理。 jeba.lcut(s)：精确模式，对原文本进行词语拆分，无冗余。 jieba.lcut(s,cut_all=True)：全模式，对文本进行拆分，列出所以可以组成的词语，存在冗余。 jieba.lcut_
所属分类：其它
- 发布日期：2020-12-23
- 文件大小：95232
- 提供者：weixin_38629362

Python中文分词库jieba,pkusegwg性能准确度比较
中文分词(Chinese Word Segmentation)，将中文语句切割成单独的词组。英文使用空格来分开每个单词的，而中文单独一个汉字跟词有时候完全不是同个含义，因此，中文分词相比英文分词难度高很多。分词主要用于NLP 自然语言处理（Natural Language Processing），使用场景有：搜索优化，关键词提取（百度指数）语义分析，智能问答系统（客服系统）非结构化文本媒体内容，如社交信息（微博热榜）文本聚类，根据内容生成分类（行业分类） Python的
所属分类：其它
- 发布日期：2020-12-20
- 文件大小：655360
- 提供者：weixin_38717031

nlp_windows_exe_ui:python3.6-制作一个包含NLP基本功能系统（Windows exe）自然语言处理系统。系统功能：分词，词性标注，关键词提取，文本分类-源码
nlp_windows_exe_ui 介绍 python3.6-制作一个包含NLP基本功能系统（Windows exe）自然语言处理系统。系统功能：分词，词性标注，关键字提取，文本分类；由于要打包成exe的关系，我将原本的项目的多一个文件的集成到一个python文件（合并文件）里，只保留了使用该系统所需要的函数，方便打包，通俗地讲就是，生成生成词向量过程，装袋过程，模型训练过程的，以及一些中间步骤的程序代码，这些有些涉及很多库的，这些打包进去。但是整个项目里的东西是完整的（包括数据）运行这个系
所属分类：其它
- 发布日期：2021-03-15
- 文件大小：20971520
- 提供者：weixin_42129113

lac：百度NLP：分词，词性标注，命名实体识别，词首-源码
工具介绍 LAC全称中文的词法分析，是百度自然语言处理部研发的一种联合的词法分析工具，实现中文分词，词性标注，专名识别等功能。该工具具有以下特点和优势：效果好：通过深度学习模型联合学习分词，词性标注，专名识别任务，单词索引，整体效果F1值超过0.91，词性标注F1值超过0.94，专名识别F1值超过0.85，效果领先。效率高：精简模型参数，结合Paddle预测库的性能优化，CPU单线程性能达800QPS，效率领先。可定制：实现简单可控的干预机制，精确匹配用户字典对模型进行干预。调用便捷：支
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：4194304
- 提供者：weixin_42150341

ID-CNN-CWS：源代码和论文“用于中文分词的迭代扩张卷积”的语料库-源码
ID-CNN-CWS 源代码和论文“用于中文分词的迭代膨胀卷积”的论文集。它为CWS实现以下4种模型：双LSTM 双LSTM-CRF 身份识别 ID-CNN-CRF 依存关系 Python> = 3.6 TensorFlow> = 1.2 同时支持CPU和GPU。 GPU训练速度提高了10倍。制备运行以下脚本以将语料库转换为TensorFlow数据集。 $ ./scr ipts/make.sh 训练与测试快速开始 $ ./scr ipts/run.sh $d
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：28311552
- 提供者：weixin_42109545

HanLP：中文分词词性标注命名实体识别依存句法分析语义依存分析新词发现用自动生成的摘要进行文本分类聚类拼音简繁转换自然语言处理-源码
HanLP：汉语言处理 || || 面向生产环境的多语种自然语言处理工具包，基于PyTorch和TensorFlow 2.x双引擎，目标是普及落地最前沿的NLP技术。HanLP实现功能完善，性能高效，架构清晰，语料时新，可自定义的特点。穿越世界上最大的多语言种语料库，HanLP2.1支持包括简繁中英日俄法德内部的104种语言上的10种联合任务：分词（粗分，细分2个标准，强制，合并，校正3种），词性标注（PKU，863，CTB，UD四套词性规范），命名实体识别（PKU，MSRA，OntoNot
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：775168
- 提供者：weixin_42134054

python中文分词库jieba使用方法详解
安装python中文分词库jieba 法1：Anaconda Prompt下输入conda install jieba 法2：Terminal下输入pip3 install jieba 1、分词 1.1、CUT函数简介 cut(sentence, cut_all=False, HMM=True) 返回生成器，遍历生成器即可获得分词的结果 lcut(sentence) 返回分词列表 import jieba sentence = '我爱自然语言处理' # 创建【Tokenizer.cut 生成器
所属分类：其它
- 发布日期：2021-01-20
- 文件大小：107520
- 提供者：weixin_38707356

« 12 »