您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 大数据ES数据存储,查询之IK中文分词器

  2. 对于ES IK分词插件在中文检索中非常常用,本人也使用了挺久的。但知识细节一直很碎片化,一直没有做详细的整理。过一段时间用的话,也是依然各种找资料,也因此会降低开发效率。所以在有空的时候好好整理下相关资料。也希望本文对使用 ElasticSearch 和 IK分词插件的开发者有所帮助。希望能少走点弯路。 本文包括前言、IK分词介绍、分词效果对比、自定义词典使用、索引设置和字段设置(Python 创建索引并导入数据)、查询测试(Python 查询)、结论等七个部分。
  3. 所属分类:Hadoop

    • 发布日期:2018-09-19
    • 文件大小:3145728
    • 提供者:xiaoxiang154
  1. Python与AI之 入门

  2. Python, 机器学习的分类器, 或是中文分词能在十行内搞定. 开始时几乎完全不用考虑具体的数据结构. 在熟悉了Python之后, 用它看程序逻辑就很清晰, 有点像伪代码, 让LISP爱好者们也如同找到了亲人.
  3. 所属分类:Python

    • 发布日期:2019-03-22
    • 文件大小:56320
    • 提供者:jiangping84
  1. Python中文分词工具之结巴分词用法实例总结【经典案例】

  2. 主要介绍了Python中文分词工具之结巴分词用法,结合实例形式总结分析了Python针对中文文件的读取与分词操作过程中遇到的问题与解决方法,需要的朋友可以参考下
  3. 所属分类:其它

    • 发布日期:2020-09-21
    • 文件大小:107520
    • 提供者:weixin_38522214
  1. python实现机械分词之逆向最大匹配算法代码示例

  2. 逆向最大匹配方法 有正即有负,正向最大匹配算法大家可以参阅//www.jb51.net/article/127404.htm 逆向最大匹配分词是中文分词基本算法之一,因为是机械切分,所以它也有分词速度快的优点,且逆向最大匹配分词比起正向最大匹配分词更符合人们的语言习惯。逆向最大匹配分词需要在已有词典的基础上,从被处理文档的末端开始匹配扫描,每次取最末端的i个字符(分词所确定的阈值i)作为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。而且选择的阈值越大,分词越慢,但准确性越好。 逆
  3. 所属分类:其它

    • 发布日期:2020-12-24
    • 文件大小:158720
    • 提供者:weixin_38713996
  1. python之中文分词

  2. 目录 1、安装和使用jieba 2、分词练习 3、为jieba添加自定义的词典 4、知识点普及 1)分词文件怎么写 2)jieba.cut()参数说明 5、搜索引擎模式 1、安装和使用jieba 直接用命令:pip3 install jieba就可以了,如图所示表示成功。 2、分词练习 import jieba if __name__ == '__main__': seg_gu=jieba.cut(故宫的重要景点:乾清宫, cut_all=False) print(Full
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:65536
    • 提供者:weixin_38536397
  1. Witcher-nlp-analysis:对《猎魔人》系列小说中文译本(主要是没找到英文原版的数据集)做的一个简单的nlp分析,包括分词,词频统计,词向量的计算,相似度的计算和二维,三维的可视化-源码

  2. 巫师nlp分析 假期刷了猎魔人的美剧,又心血来潮重新半通关了而巫师3主线,无意间看到了一个把冰与火之歌拿出来做分析的项目,于是我就想《猎魔人》系列能不能也做一个这种简单的nlp分析和可视化。找了全网也没见到相似的项目(Github上一搜Witcher全都是mod),决定自己动手试一试。 核心部分的代码放在了里面,很多结果已经可视化,甚至不懂数据分析和python的同学也可以看。 洗数据的代码放在了里面
  3. 所属分类:其它

    • 发布日期:2021-03-11
    • 文件大小:29360128
    • 提供者:weixin_42131424
  1. Python中文分词工具之结巴分词用法实例总结【经典案例】

  2. 本文实例讲述了Python中文分词工具之结巴分词用法。分享给大家供大家参考,具体如下: 结巴分词工具的安装及基本用法,前面的文章《Python结巴中文分词工具使用过程中遇到的问题及解决方法》中已经有所描述。这里要说的内容与实际应用更贴近——从文本中读取中文信息,利用结巴分词工具进行分词及词性标注。 示例代码如下: #coding=utf-8 import jieba import jieba.posseg as pseg import time t1=time.time() f=open(t_
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:111616
    • 提供者:weixin_38535848