搜索资源 - 中文分词插件 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 中文分词插件

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

基于多Agent的信息搜索引擎技术研究与应用
搜索引擎就提供了这样一个导航工具.而随着多Agent技术的发展,为了满足用户日益增长的需要,基于多Agent的搜索引擎也被广泛研究.本论文在对Intemet信息收集处理及多Agent技术的研究基础上,设计开发了一个用于Web信息搜索的基于多Agent的搜索引擎试验系统SEBMA(Search Engine Based on Multi-Agent),它使用基于多Agent的体系结构来实现信息收集过程的并行、分布式处理,较好地解决了大规模Internet信息收集和提高信息检索准确率的问题.文中首
所属分类：网络基础
- 发布日期：2008-03-07
- 文件大小：5242880
- 提供者：ansonla

Sphinx实时索引最新版
Sphinx是一个基于SQL的全文检索引擎，可以结合MySQL,PostgreSQL做全文搜索，它可以提供比数据库本身更专业的搜索功能，使得应用程序更容易实现专业化的全文检索。Sphinx特别为一些脚本语言设计搜索API接口，如PHP,Python,Perl,Ruby等，同时为MySQL也设计了一个存储引擎插件。 Sphinx 单一索引最大可包含1亿条记录，在1千万条记录情况下的查询速度为0.x秒（毫秒级）。Sphinx创建索引的速度为：创建100万条记录的索引只需 3～4分钟，创建1000万
所属分类：其它
- 发布日期：2012-09-29
- 文件大小：3145728
- 提供者：xuneng_123

php中文分词库
是一个基于php的中文分词库，很好用的一个中文分词词库，不需要任何的插件支持，直接引入就可以使用。
所属分类：PHP
- 发布日期：2014-06-17
- 文件大小：10485760
- 提供者：qq_15346065

ikanalyzer2.0.2源代码
lucene开源的中文分词插件，ikanalyzer 2.0.2版源代码
所属分类：Java
- 发布日期：2008-10-24
- 文件大小：789504
- 提供者：dearchuansir

中文分词工具word-1.0,Java实现的中文分词组件多种基于词典的分词算法
word分词是一个Java实现的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名、组织机构名等未登录词。同时提供了Lucene、Solr、ElasticSearch插件。分词使用方法： 1、快速体验运行项目根目录下的脚本demo-word.bat可以快速体验分词效果用法: command [text] [input] [output] 命令command的可选值为：demo、text、file
所属分类：Java
- 发布日期：2014-11-05
- 文件大小：10485760
- 提供者：love_hachi

IK中文分词器
IK中文分词工具，可用于solr，elasticsearch分词插件
所属分类：Java
- 发布日期：2015-06-11
- 文件大小：2097152
- 提供者：qq_19244267

Ansj中文分词
Ansj中文分词是一个完全开源的、基于Google语义模型+条件随机场模型的中文分词的Java实现，具有使用简单、开箱即用等特点。 Ansj分词速度达到每秒钟大约100万字左右（Mac Air下测试），准确率能达到96%以上。 Ansj 1.41版本的新增功能 •增加了调用文档说明 •调整了关键词抽取 •增加了摘要计算 •关键词标红 •大幅度提高了命名实体识别 •对于词性标注提供了基于概率的快速标注方式.依旧保留给予隐马模型的词性标注. •修复了目前已知的所有bug •大量修正了之前默认用户自
所属分类：互联网
- 发布日期：2015-07-10
- 文件大小：45088768
- 提供者：katrina1rani

elasticsearch-analysis-lc-pinyin拼音分词器
该插件是elasticsearch拼音分词插件，支持中文，拼音，首字母混合搜索。在实际搜索需求中，常常需要对中文做拼音搜索，首字母搜索或者中文拼音首字母混合搜索。比如要对 "广发聚财信用" 这几个中文进行拼音搜索，我们可能的搜索关键字：“guangfa”，“gfjc”，“guangfajucai”，“guangfjc”，“gfajcai”，“广发juc” 等等的混合搜索
所属分类：Java
- 发布日期：2016-08-27
- 文件大小：403456
- 提供者：chennanymy

solr的中文分词资料
该资料是支持solr6.0的中文分词插件。IK分词器
所属分类：其它
- 发布日期：2016-10-24
- 文件大小：16777216
- 提供者：wisdomryw

elasticsearch[2.4.4]版本用ik分词器
Elasticsearch默认提供的分词器，会把每个汉字分开，而不是我们想要的根据关键词来分词 Was designed for version [elasticsearch2.4.4] 为elasticsearch2.4.4提供的ik中文分词器插件
所属分类：Java
- 发布日期：2017-09-13
- 文件大小：4194304
- 提供者：chen649053473

windows平台使用hadoop hdfs文件进行中文分词的示例代码
windows平台上，使用Eclipse hadoop插件，开发基于hdfs文件的中文分词统计和排序功能，以唐诗三百首为例，找出其中使用频率最高的词语。
所属分类：Hadoop
- 发布日期：2017-11-08
- 文件大小：4194304
- 提供者：yangdanbo1975

大数据ES数据存储，查询之IK中文分词器
对于ES IK分词插件在中文检索中非常常用，本人也使用了挺久的。但知识细节一直很碎片化，一直没有做详细的整理。过一段时间用的话，也是依然各种找资料，也因此会降低开发效率。所以在有空的时候好好整理下相关资料。也希望本文对使用 ElasticSearch 和 IK分词插件的开发者有所帮助。希望能少走点弯路。本文包括前言、IK分词介绍、分词效果对比、自定义词典使用、索引设置和字段设置（Python 创建索引并导入数据）、查询测试（Python 查询）、结论等七个部分。
所属分类：Hadoop
- 发布日期：2018-09-19
- 文件大小：3145728
- 提供者：xiaoxiang154

elasticsearch-analysis-ik-7.1.1.zip
elasticsearch 的中文分词插件，用于中文分词，使用方法，直接把压缩包解压放到elasticsearch 的plugins\ik 文件夹下
所属分类：Web服务器
- 发布日期：2019-06-18
- 文件大小：4194304
- 提供者：yangge2010

BIWEB WMS PHP开源企业建站系统 v5.8.5.rar
BIWEB WMS 企业版升级啦！！！现推出中英文双语版，并可以完美支持中文繁简转换。该系统需要PHP5以上版本，并要开启PDO和PDO_MYSQL组件，否则无法使用。 BIWEB V5.8.5启用了新的底层框架，共享内存缓存的应用，是新底层的一大特色，大家可以下载来体验一下。 5.8.5更新: 1.更新了底层数据库缓存的算法，由2个字符一层目录生成的缓存存放路径，循环8次就停止了。 2.更新了更新缓存文件函数updateCache，加入了更新数据库缓存的部分。 3.更新了删除数据函数del
所属分类：其它
- 发布日期：2019-07-16
- 文件大小：13631488
- 提供者：weixin_39840515

Python中文分词库Yaha.zip
"哑哈"中文分词，更快或更准确，由你来定义。通过简单定制，让分词模块更适用于你的需求。 "Yaha" You can custom your Chinese Word Segmentation efficiently by using Yaha 基本功能：精确模式，将句子切成最合理的词。全模式，所有的可能词都被切成词，不消除歧义。搜索引擎模式，在精确的基础上再次驿长词进行切分，提高召回率，适合搜索引擎创建索引。备选路径，可生成最好的多条切词路径，可在此
所属分类：其它
- 发布日期：2019-07-16
- 文件大小：6291456
- 提供者：weixin_39841856

Elasticsearch的开源中文分词器 IK Analysis.zip
IK中文分词器在Elasticsearch上的使用。原生IK中文分词是从文件系统中读取词典，es-ik本身可扩展成从不同的源读取词典。目前提供从sqlite3数据库中读取。es-ik-plugin-sqlite3使用方法： 1. 在elasticsearch.yml中设置你的sqlite3词典的位置：ik_analysis_db_path: /opt/ik/dictionary.db 我提供了默认的词典：https://github.com/zacker330/es-ik-sqlite3-di
所属分类：其它
- 发布日期：2019-07-19
- 文件大小：3145728
- 提供者：weixin_39840924

Friso中文分词器 v1.6.4
为您提供Friso中文分词器下载，Friso 是使用 c 语言开发的一款开源的高性能中文分词器，使用流行的mmseg算法实现。完全基于模块化设计和实现，可以很方便的植入其他程序中，例如：MySQL，PHP，并且提供了php5，php7，ocaml，lua的插件实现。源码无需修改就能在各种平台下编译使用，加载完 20 万的词条，内存占用稳定为 14.5M。Friso核心功能：中文分词：mmseg算法 + Friso 独创的优化算法
所属分类：其它
- 发布日期：2020-11-25
- 文件大小：1048576
- 提供者：weixin_38675341

segmentit：任何JS环境可用的中文分词包，来自leizongminnode-segment的叉子-源码
中文分词模块本模块基于魔改，增加了电子，浏览器支持，并准备针对电子多线程运行环境进行优化。之所以要花时间魔改，是因为segment和nodejieba虽然在节点环境下很好用，但根本无法在浏览器和电子环境下运行。我把代码插入为ES2015，并用babel插件内联了字典文件，全部加载的话大小是3.8M，但如果有些字典你并不需要，字典和模块是支持tree shake的（请使用ESM模块）。用法 import { Segment , useDefault } from 'segmentit' ;
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：1048576
- 提供者：weixin_42117224

friso：高性能中文令牌生成器，基于ANSI C开发的MMSEG算法，同时支持GBK和UTF-8字符集。完全基于模块化实现，可以轻松嵌入其他程序中，例如：MySQL，PostgreSQL，PHP等-源码
Friso是什么？ Friso是使用c语言开发的一种开源的高级中文分词器，使用流行的mmseg算法实现。完全基于建模设计和实现，可以很方便的植入其他程序中，例如：MySQL，PHP，并提供无需修改即可在各种平台下编译使用，加载完20万的词条，内存占用稳定为14.5M。 Friso核心功能：中文分词：mmseg算法+ Friso独创的优化算法，各种切分模式。关键字提取：基于textRank算法。关键语法提取：基于textRank算法。关键句子提取：基于textRank算法。 Friso中
所属分类：其它
- 发布日期：2021-01-30
- 文件大小：1048576
- 提供者：weixin_42133899

深度解析MySQL 5.7之中文全文检索
前言其实全文检索在MySQL里面很早就支持了，只不过一直以来只支持英文。缘由是他从来都使用空格来作为分词的分隔符，而对于中文来讲，显然用空格就不合适，需要针对中文语义进行分词。这不，从MySQL 5.7开始，MySQL内置了ngram全文检索插件，用来支持中文分词，并且对MyISAM和InnoDB引擎有效。在使用中文检索分词插件ngram之前，先得在MySQL配置文件里面设置他的分词大小，比如， [mysqld] ngram_token_size=2 这里把分词大小设置为2。要记住，分词的
所属分类：其它
- 发布日期：2021-01-21
- 文件大小：69632
- 提供者：weixin_38717896

« 12 3 4 »