您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 哈工大停用词表扩展

  2. 哈工大停用词表扩展去停用词用!
  3. 所属分类:专业指导

    • 发布日期:2008-05-30
    • 文件大小:4096
    • 提供者:qq361277534
  1. Web Data Mining (英文)

  2. 目录回到顶部↑ 第一部分 数据挖掘基础. 第1章 概述3 1.1 什么是万维网3 1.2 万维网和互联网的历史简述4 1.3 web数据挖掘5 1.3.1 什么是数据挖掘6 1.3.2 什么是web数据挖掘7 1.4 各章概要8 1.5 如何阅读本书10 文献评注10 第2章 关联规则和序列模式12 2.1 关联规则的基本概念12 2.2 apriori算法14 2.2.1 频繁项目集生成14 2.2.2 关联规则生成17 2.3 关联规则挖掘的数据格式19 2.4 多最小支持度的关联规则挖掘
  3. 所属分类:专业指导

    • 发布日期:2012-05-02
    • 文件大小:8388608
    • 提供者:chen_767
  1. LuceneInAction(第2版)_中文版

  2. 内容简介   《Lucene实战(第2版)》基于Apache的Lucene 3.0,从Lucene核心、Lucene应用、案例分析3个方面详细系统地介绍了Lucene,包括认识Lucene、建立索引、为应用程序添加搜索功能、高级搜索技术、扩展搜索、使用Tika提取文本、Lucene的高级扩展、使用其他编程语言访问Lucene、Lucene管理和性能调优等内容,最后还提供了三大经典成功案例,为读者展示了一个奇妙的搜索世界。   《Lucene实战(第2版)》适合于已具有一定Java编程基本的读者
  3. 所属分类:Java

    • 发布日期:2012-07-12
    • 文件大小:48234496
    • 提供者:liujun13579
  1. lucene 3.6

  2. lucene 3.6 的入门例子 代码简洁 注释清晰 是入门只必备啊 附带了ik中文分词器 支持 停用词 扩展词等
  3. 所属分类:Java

    • 发布日期:2012-11-05
    • 文件大小:4194304
    • 提供者:a13618662181
  1. IKanalyzer2012修复与Lucene3.6.2Jar及IK使用示例

  2. 修复IKAnalyzer2012存在的无法添加扩展的中文停用词的bug。详见:http://blog.csdn.net/kmguo/article/details/8779522
  3. 所属分类:Java

    • 发布日期:2013-04-09
    • 文件大小:2097152
    • 提供者:kmguo
  1. IKAnalyzer修复源码,Lucene3.6 Jar及使用示例

  2. 修复IKAnalyzer2012存在的无法添加扩展的中文停用词的bug。详见:http://blog.csdn.net/kmguo/article/details/8779522
  3. 所属分类:Java

    • 发布日期:2013-04-09
    • 文件大小:2097152
    • 提供者:kmguo
  1. lucene的分词的测试工程

  2. lucene的分词的测试工程,包括分词器的比较,扩展停用词,同义词分词等
  3. 所属分类:Java

    • 发布日期:2013-04-21
    • 文件大小:4194304
    • 提供者:wxwzy738
  1. 使用lucene4.10,IKAnalyzer5.0提取敏感词

  2. lucene中有扩展词库和停用词的概念,利用StopFilter加入违禁词的概念,可以返回检索到的违禁词。
  3. 所属分类:Java

    • 发布日期:2014-11-22
    • 文件大小:1048576
    • 提供者:jiutianfeiwu
  1. 停用词扩展版

  2. 中英文停用词合并, 共3249个
  3. 所属分类:其它

    • 发布日期:2016-03-31
    • 文件大小:22528
    • 提供者:pinksom
  1. lucene5.4 + IKAnalyzer

  2. lucene5.4 + IKAnalyzer支持同义词、停用词、扩展词,IKAnalyzer是中同义词是自己改的,就没打包了,如果还有其它需求可以自己改改.
  3. 所属分类:Java

    • 发布日期:2016-04-15
    • 文件大小:4194304
    • 提供者:liuchuan0000
  1. IKAnalyzer2012FF_u1 完美支持粗细力度分离/扩展停用同义词/

  2. 添加ik分词器时加入以下代码即可 isMaxWordLength属性为true则使用细粒度分词 反之使用粗粒度 ...展开收缩
  3. 所属分类:Java

    • 发布日期:2017-04-06
    • 文件大小:1048576
    • 提供者:x631617479
  1. IKAnalyzer

  2. 支持Lucene6.6版本的IKAnalyzer,亲测可以使用,包括扩展自己词典和停用词。
  3. 所属分类:Java

    • 发布日期:2017-07-30
    • 文件大小:1048576
    • 提供者:k_122
  1. solr分词器

  2. classpath目录:/usr/local/solr/tomcat/webapps/solr/WEB-INF/classes [root@bogon IK Analyzer 2012FF_hf1]# cp IKAnalyzer.cfg.xml ext_stopword.dic mydict.dic /usr/local/solr/tomcat/webapps/solr/WEB-INF/classes 注意:扩展词典及停用词词典的字符集必须是utf-8。不能使用windows记事本编辑。
  3. 所属分类:Java

    • 发布日期:2017-09-25
    • 文件大小:4194304
    • 提供者:u011277123
  1. IK-Analyzer 分词器所需要的配置文件、扩展词典及停用词词典 完整包下载

  2. IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。 采用了特有的“正向迭代最细粒度切分算法”,具有60万字/秒的高速处理能力。 采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。 Linux下Solr4.10.4搜索引擎的安装与部署图文详解 : http://blog.csdn.net/Hello_World_QWP/article/details/7
  3. 所属分类:其它

    • 发布日期:2017-12-25
    • 文件大小:1048576
    • 提供者:hello_world_qwp
  1. Pathon绘制词云

  2. 词云又叫文字云,是对文本数据中出现频率较高的“关键词”在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意思。 1.wordcloud制作词云时,首先要对对文本数据进行分词,使用process_text()方法,这一步的主要任务是去除停用词 2.第二步是计算每个词在文本中出现的频率,生成一个哈希表。词频用于确定一个词的重要性 3.根据词频的数值按比例生成一个图片的布局,类IntegralOccupancyMap 是该词云的算法所在,是词云的数据可
  3. 所属分类:其它

    • 发布日期:2018-10-25
    • 文件大小:201728
    • 提供者:qq_41572566
  1. IKAnalyzer2012FF_u1

  2. 使用方法:第一步:把jar包添加到工程中;第二步:把配置文件和扩展词词典和停用词词典添加到项目的src文件夹下,即可使用
  3. 所属分类:kafka

    • 发布日期:2019-02-15
    • 文件大小:1048576
    • 提供者:qq_35253970
  1. ElasticSearch环境搭建详细步骤

  2. 本文档提供了ElasticSearch的详细安装说明,包括Head、和IK分词插件。 1、安装ElasticSearch 安装ElasticSearch的前提条件:JDK1.8及以上 ElasticSearch安装文件的下载地址为 https://www.elastic.co/cn/products/elasticsearch 点击past releases,查看旧版本。选择ZIP sha格式进行下载。 将elasticsearch-6.2.4.zip文件解压。 进入D:\elasticsea
  3. 所属分类:搜索引擎

    • 发布日期:2019-03-21
    • 文件大小:3072
    • 提供者:fengyuntian2009
  1. 管理海量数据-压缩、索引和查询 第2版.zip

  2. 第1章 概览 1.1 文档数据库(document databases) 1.2 压缩(compression) 1.3 索引(indexes) 1.4 文档索引 1.5 MG海量文档管理系统 第2章 文本压缩 2.1 模型 2.2 自适应模型 2.3 哈夫曼编码 范式哈夫曼编码 计算哈夫曼编码长度 总结 2.4 算术编码 算术编码是如何工作的 实现算术编码 保存累积计数 2.5 符号模型 部分匹配预测 块排序压缩 动态马尔科夫压缩 基于单字的压缩 2.6 字典模型 自适应字典编码器的LZ77
  3. 所属分类:数据库

    • 发布日期:2019-08-04
    • 文件大小:236978176
    • 提供者:harlensaint
  1. 6.8.5IK分词器

  2. 1.IK分词器安装包,直接放在ES的plugins文件夹下解压就可以使用。如果需要配置自定义词典,将自己的.dic文件放在IK解压后的config即可,同时在IKAnalyzer.cfg.xml添加扩展词典或自定义的停词词典用英文分号(;)分隔即可(如:test.dic;extra_single_word_low_freq.dic)。 2.如果使用远程词库,在远程sever放置.txt自定义分词文件,使用http://ip:端口号/文件名.txt配置即可,远程停词文件配置再中。 注:这里存放
  3. 所属分类:Java

    • 发布日期:2020-03-17
    • 文件大小:4194304
    • 提供者:Tomcat_wr8
  1. elasticsearch-analysis-ik-6.4.0.zip

  2. 这是基于Elasticsearch 6.4.0的elasticsearch-analysis-ik-6.4.0分词器,原本的分词器不支持MySQL动态扩展词库和停用词库; 我改了下源码使IK Analysis支持mysql创建扩展词库和停用词库. 使用方法和源码在我的GitHub:https://github.com/d470969047h/elasticsearch-analysis-ik
  3. 所属分类:Java

    • 发布日期:2020-10-27
    • 文件大小:9437184
    • 提供者:d470969047h
« 12 »