您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. python的中文分词库smallseg

  2. python的中文分词库有多个,jieba、thulac都可以在GitHub上下载到,但是smallseg需要在code.google上下载,所以只上传了smallseg
  3. 所属分类:搜索引擎

    • 发布日期:2018-01-03
    • 文件大小:1048576
    • 提供者:qq_33363973
  1. jieba-master

  2. 中文分词工具jieba, 一个python实现的分词库,对中文有着很强大的分词能力。支持三种分词模式: a. 精确模式,试图将句子最精确地切开,适合文本分析; b. 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; c. 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
  3. 所属分类:深度学习

    • 发布日期:2018-03-18
    • 文件大小:11534336
    • 提供者:kingwenming
  1. Java版的BosonNLP分词

  2. 玻森专注中文语义分析技术,拥有丰富的经验积累。自主研发千万级中文语料库,为精准和深度的中文语义分析提供坚实基础。一站式解决您的中文语义分析需求。多个语义分析API,从情感倾向、实体、分类等方面。官网只有python版本,现上传Java的实例。
  3. 所属分类:Java

    • 发布日期:2018-11-16
    • 文件大小:8388608
    • 提供者:hello_java2018
  1. Python 含中文分词的多项式贝叶斯的增量学习的文本分类.rar

  2. 本源码中包括两个Python案例:1、基于潜在狄利克雷分配(LDA)模型的内容主题挖掘。2、基于多项式贝叶斯的增量学习的文本分类。依赖库:sys、re、tarfile、os、numpy、bs4、sklearn   程序输入:article.txt、news_data.tar.gz   程序输出:打印输出18个主题及新文本的预测主题归属   程序实现功能:全角转半角、解析文件内容、从原始文件中解析出文本内容和标签数据、以列表形式返回文本中的所有内容和对应标签、交叉检验、将训练集文本数据转换为稀疏
  3. 所属分类:其它

    • 发布日期:2019-07-10
    • 文件大小:18874368
    • 提供者:weixin_39840924
  1. Python中文分词库Yaha.zip

  2. "哑哈"中文分词,更快或更准确,由你来定义。通过简单定制,让分词模块更适用于你的需求。 "Yaha" You can custom your Chinese Word Segmentation efficiently by using Yaha 基本功能: 精确模式,将句子切成最合理的词。 全模式,所有的可能词都被切成词,不消除歧义。 搜索引擎模式,在精确的基础上再次驿长词进行切分,提高召回率,适合搜索引擎创建索引。 备选路径,可生成最好的多条切词路径,可在此
  3. 所属分类:其它

    • 发布日期:2019-07-16
    • 文件大小:6291456
    • 提供者:weixin_39841856
  1. Python-genius基于条件随机域的中文断词库

  2. Genius是一个开源的python中文分词组件,采用 CRF(Conditional Random Field)条件随机场算法。
  3. 所属分类:其它

    • 发布日期:2019-08-10
    • 文件大小:17825792
    • 提供者:weixin_39840588
  1. 第三方库jieba.zip

  2. 分享python jieba库 优秀的第三方中文分词库
  3. 所属分类:Python

    • 发布日期:2020-07-21
    • 文件大小:18874368
    • 提供者:weixin_44142358
  1. Python中文分词库jieba,pkusegwg性能准确度比较

  2. 主要介绍了Python中文分词库jieba,pkusegwg性能准确度比较,需要的朋友可以参考下
  3. 所属分类:其它

    • 发布日期:2020-09-17
    • 文件大小:549888
    • 提供者:weixin_38744803
  1. python中文分词库jieba使用方法详解

  2. 主要介绍了python中文分词库jieba使用方法详解,需要的朋友可以参考下
  3. 所属分类:其它

    • 发布日期:2020-09-17
    • 文件大小:104448
    • 提供者:weixin_38589795
  1. python使用jieba实现中文分词去停用词方法示例

  2. jieba分词,完全开源,有集成的python库,简单易用。下面这篇文章主要给大家介绍了关于python使用jieba实现中文分词去停用词的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考借鉴,下面来一起看看吧。
  3. 所属分类:其它

    • 发布日期:2020-09-20
    • 文件大小:47104
    • 提供者:weixin_38530202
  1. python生成词云的实现方法(推荐)

  2. 期末复习比较忙过段时间来专门写scrapy框架使用,今天介绍如何用python生成词云,虽然网上有很多词云生成工具,不过自己用python来写是不是更有成就感。 今天要生成的是励志歌曲的词云,百度文库里面找了20来首,如《倔强》,海阔天空是,什么的大家熟悉的。 所要用到的python库有 jieba(一个中文分词库)、wordcould 、matplotlib、PIL、numpy。 首先我们要做的是读取歌词。我将歌词存在了文件目录下励志歌曲文本中。 现在来读取他 #encoding=gbk
  3. 所属分类:其它

    • 发布日期:2020-12-24
    • 文件大小:118784
    • 提供者:weixin_38707356
  1. 浅谈python jieba分词模块的基本用法

  2. jieba(结巴)是一个强大的分词库,完美支持中文分词,本文对其基本用法做一个简要总结。 特点 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词 支持自定义词典 MIT 授权协议 安装jieba pip install jieba 简单用法 结巴分词分为三
  3. 所属分类:其它

    • 发布日期:2020-12-23
    • 文件大小:97280
    • 提供者:weixin_38713057
  1. 统计文本词频并输出为Excel表格形式——Python实现

  2. 统计文本词频并输出为Excel表格形式——Python实现 本次实例主要是熟练对中文分词库_jieba库,以及二维数据存储_csv库的使用。 目录 简单介绍两个库的使用 实例问题及问题分析 Python实现 一、简单介绍两个库的使用 jieba库:中文分词库,将中文文本分解为单个词语进行处理。 jeba.lcut(s):精确模式,对原文本进行词语拆分,无冗余。 jieba.lcut(s,cut_all=True):全模式,对文本进行拆分,列出所以可以组成的词语,存在冗余。 jieba.lcut_
  3. 所属分类:其它

    • 发布日期:2020-12-23
    • 文件大小:94208
    • 提供者:weixin_38640443
  1. 统计文本词频并输出为Excel表格形式——Python实现

  2. 统计文本词频并输出为Excel表格形式——Python实现 本次实例主要是熟练对中文分词库_jieba库,以及二维数据存储_csv库的使用。 目录 简单介绍两个库的使用 实例问题及问题分析 Python实现 一、简单介绍两个库的使用 jieba库:中文分词库,将中文文本分解为单个词语进行处理。 jeba.lcut(s):精确模式,对原文本进行词语拆分,无冗余。 jieba.lcut(s,cut_all=True):全模式,对文本进行拆分,列出所以可以组成的词语,存在冗余。 jieba.lcut_
  3. 所属分类:其它

    • 发布日期:2020-12-23
    • 文件大小:95232
    • 提供者:weixin_38629362
  1. Python中文分词库jieba,pkusegwg性能准确度比较

  2. 中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组。英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是同个含义,因此,中文分词相比英文分词难度高很多。 分词主要用于NLP 自然语言处理(Natural Language Processing),使用场景有: 搜索优化,关键词提取(百度指数) 语义分析,智能问答系统(客服系统) 非结构化文本媒体内容,如社交信息(微博热榜) 文本聚类,根据内容生成分类(行业分类) Python的
  3. 所属分类:其它

    • 发布日期:2020-12-20
    • 文件大小:655360
    • 提供者:weixin_38717031
  1. nlp_windows_exe_ui:python3.6-制作一个包含NLP基本功能系统(Windows exe)自然语言处理系统。系统功能:分词,词性标注,关键词提取,文本分类-源码

  2. nlp_windows_exe_ui 介绍 python3.6-制作一个包含NLP基本功能系统(Windows exe)自然语言处理系统。系统功能:分词,词性标注,关键字提取,文本分类;由于要打包成exe的关系,我将原本的项目的多一个文件的集成到一个python文件(合并文件)里,只保留了使用该系统所需要的函数,方便打包,通俗地讲就是,生成生成词向量过程,装袋过程,模型训练过程的,以及一些中间步骤的程序代码,这些有些涉及很多库的,这些打包进去。但是整个项目里的东西是完整的(包括数据) 运行这个系
  3. 所属分类:其它

    • 发布日期:2021-03-15
    • 文件大小:20971520
    • 提供者:weixin_42129113
  1. lac:百度NLP:分词,词性标注,命名实体识别,词首-源码

  2. 工具介绍 LAC全称中文的词法分析,是百度自然语言处理部研发的一种联合的词法分析工具,实现中文分词,词性标注,专名识别等功能。该工具具有以下特点和优势: 效果好:通过深度学习模型联合学习分词,词性标注,专名识别任务,单词索引,整体效果F1值超过0.91,词性标注F1值超过0.94,专名识别F1值超过0.85,效果领先。 效率高:精简模型参数,结合Paddle预测库的性能优化,CPU单线程性能达800QPS,效率领先。 可定制:实现简单可控的干预机制,精确匹配用户字典对模型进行干预。 调用便捷:支
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:4194304
    • 提供者:weixin_42150341
  1. ID-CNN-CWS:源代码和论文“用于中文分词的迭代扩张卷积”的语料库-源码

  2. ID-CNN-CWS 源代码和论文“用于中文分词的迭代膨胀卷积”的论文集。 它为CWS实现以下4种模型: 双LSTM 双LSTM-CRF 身份识别 ID-CNN-CRF 依存关系 Python> = 3.6 TensorFlow> = 1.2 同时支持CPU和GPU。 GPU训练速度提高了10倍。 制备 运行以下脚本以将语料库转换为TensorFlow数据集。 $ ./scr ipts/make.sh 训练与测试 快速开始 $ ./scr ipts/run.sh $d
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:28311552
    • 提供者:weixin_42109545
  1. HanLP:中文分词词性标注命名实体识别依存句法分析语义依存分析新词发现用自动生成的摘要进行文本分类聚类拼音简繁转换自然语言处理-源码

  2. HanLP:汉语言处理 || || 面向生产环境的多语种自然语言处理工具包,基于PyTorch和TensorFlow 2.x双引擎,目标是普及落地最前沿的NLP技术。HanLP实现功能完善,性能高效,架构清晰,语料时新,可自定义的特点。 穿越世界上最大的多语言种语料库,HanLP2.1支持包括简繁中英日俄法德内部的104种语言上的10种联合任务:分词(粗分,细分2个标准,强制,合并,校正3种),词性标注(PKU,863,CTB,UD四套词性规范),命名实体识别(PKU,MSRA,OntoNot
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:775168
    • 提供者:weixin_42134054
  1. python中文分词库jieba使用方法详解

  2. 安装python中文分词库jieba 法1:Anaconda Prompt下输入conda install jieba 法2:Terminal下输入pip3 install jieba 1、分词 1.1、CUT函数简介 cut(sentence, cut_all=False, HMM=True) 返回生成器,遍历生成器即可获得分词的结果 lcut(sentence) 返回分词列表 import jieba sentence = '我爱自然语言处理' # 创建【Tokenizer.cut 生成器
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:107520
    • 提供者:weixin_38707356
« 12 »