您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. Lucene中文分词 庖丁解牛 2_0_0版

  2. Paoding中文分词参考手册 本文档对应paoding-analysis 2.0.4–alpha2,目前还在草稿状态。 由于没有docbook编辑文档的经验和环境,暂时以word编辑文档。 目录 一般使用 使用评估 参考资料 下载 开始使用 分词策略 高级专题 配置参考 PaodingMaker的设计 庖丁架构 词典的抽象与设计 词典定制 词典动态加载 自定制分词策略 集成指南 Spring XML 配置 一般使用 使用评估 暂略 参考资料 ...展开收缩
  3. 所属分类:Java

    • 发布日期:2009-05-10
    • 文件大小:5242880
    • 提供者:iMLuther
  1. 中文分词开源项目 JAVA中文分词

  2. import WordSegment.*; import java.awt.event.ActionEvent; import java.awt.event.ActionListener; import java.awt.*; import java.io.File; import java.util.Vector; import javax.swing.*; /** * */ /** * @author Truman * */ public class WordSegDemoFrame ex
  3. 所属分类:Java

    • 发布日期:2009-08-15
    • 文件大小:391168
    • 提供者:caolijunmingyan
  1. 带词频统计的中文分词词典

  2. 这段时间在研究中文分词,在网上找了很久才找到这个词典,是txt格式的,记事本打开后词条与数字中间出现的黑块是占位符,如果用word打开的话就完全看不见的哈,不影响使用,分享了,希望对研究这块的朋友有帮助,如果朋友们有更好的,请告诉我哈,谢谢
  3. 所属分类:专业指导

    • 发布日期:2010-12-20
    • 文件大小:2097152
    • 提供者:wangxisc
  1. 中文分词词库整理.rar

  2. 30万 中文分词词库,42537条伪原创词库,dict.txt,fingerDic.txt,httpcws_dict.txt,out.txt,百度分词词库.txt,词库地址.txt,词库下载地址.txt,四十万汉语大词库.txt,四十万可用搜狗txt词库.txt,搜狗词库方法.txt,五笔词库.TXT 解压密码为:www.5eyi.com 想省资源分可以到http://www.5eyi.com/download-sphinx-chinese-word-lexicon-collected/下载
  3. 所属分类:其它

    • 发布日期:2011-09-05
    • 文件大小:6291456
    • 提供者:logken
  1. SCWS 中文分词

  2. 简介 SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统)。
  3. 所属分类:PHP

    • 发布日期:2013-05-20
    • 文件大小:5242880
    • 提供者:pzp_118
  1. Lucene中文分词组件 JE-Analysis 1.5.1

  2. 发布于:http://www.jesoft.cn/posts/list/5.page 1.5.1 —— 2006-01-22 修正细粒度分词错误的问题 1.5.0 —— 2007-01-18 全面支持Lucene 2.0 增强了词典维护的API 增加了商品编码的匹配 增加了Mail地址的匹配 实现了词尾消歧算法第二层的过滤 整理优化了词库 1.4.0 —— 2006-08-21 增加词典的动态扩展能力 1.3.3 —— 2006-07-23 修正无法多次增加词典的问题 1.3.2 —— 200
  3. 所属分类:其它

    • 发布日期:2007-01-22
    • 文件大小:891904
    • 提供者:diystar
  1. Java中文分词组件word-1.0.rar

  2. Java中文分词组件word-1.0.rar
  3. 所属分类:Java

    • 发布日期:2014-08-21
    • 文件大小:10485760
    • 提供者:u011073939
  1. 中文分词工具word-1.0,Java实现的中文分词组件多种基于词典的分词算法

  2. word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。 能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。 同时提供了Lucene、Solr、ElasticSearch插件。 分词使用方法: 1、快速体验 运行项目根目录下的脚本demo-word.bat可以快速体验分词效果 用法: command [text] [input] [output] 命令command的可选值为:demo、text、file
  3. 所属分类:Java

    • 发布日期:2014-11-05
    • 文件大小:10485760
    • 提供者:love_hachi
  1. 中文分词算法详解.pptx

  2. 中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。 PPT中详细的描述了现有中文分词算法
  3. 所属分类:其它

    • 发布日期:2014-12-05
    • 文件大小:409600
    • 提供者:zhang_pan0522
  1. 中文分词word库1.3.1

  2. word主要用于中文分词,支持多种分词算法和一些其它的高级功能。
  3. 所属分类:Java

    • 发布日期:2016-10-26
    • 文件大小:25165824
    • 提供者:trayvontang
  1. 中文分词系统

  2. c#写的一个分词的小案例,分词系统对于搜索有很大的提升空间,使搜索的条件也更加灵活。 中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。
  3. 所属分类:C#

  1. 结巴分词jar包

  2. jieba “结巴”中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module. Scroll down for English documentation. 特点 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模 式,把句子中所有的可以
  3. 所属分类:Java

    • 发布日期:2017-05-15
    • 文件大小:2097152
    • 提供者:subson
  1. word-1.3.1.jar中文分词

  2. word 分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控制分词结果,还能使用词性标注、同义标注、反义标注、拼音标注等功能。同时还无缝和Lucene、Solr、ElasticSearch、Luke集成。
  3. 所属分类:Hadoop

    • 发布日期:2017-09-26
    • 文件大小:25165824
    • 提供者:shuaigexiaobo
  1. 中文分词词库汇总

  2. 汇总的中文分词词库,分为两个目录: 1、中文分词词库汇总。包含10个词库,文件名字表示里面词的数量(单位是千),如150.txt,表示包含15万词。 2、主流分词工具的词库。包含word/jieba/mmseg/IK分词工具的最近词库。 注意:分词时,不一定是词库中的词越多,效果越好。
  3. 所属分类:其它

    • 发布日期:2018-08-09
    • 文件大小:10485760
    • 提供者:zhaohuakai
  1. Python中文分词库Yaha.zip

  2. "哑哈"中文分词,更快或更准确,由你来定义。通过简单定制,让分词模块更适用于你的需求。 "Yaha" You can custom your Chinese Word Segmentation efficiently by using Yaha 基本功能: 精确模式,将句子切成最合理的词。 全模式,所有的可能词都被切成词,不消除歧义。 搜索引擎模式,在精确的基础上再次驿长词进行切分,提高召回率,适合搜索引擎创建索引。 备选路径,可生成最好的多条切词路径,可在此
  3. 所属分类:其它

    • 发布日期:2019-07-16
    • 文件大小:6291456
    • 提供者:weixin_39841856
  1. Python3爬虫中关于中文分词的详解

  2. 原理 中文分词,即 Chinese Word Segmentation,即将一个汉字序列进行切分,得到一个个单独的词。表面上看,分词其实就是那么回事,但分词效果好不好对信息检索、实验结果还是有很大影响的,同时分词的背后其实是涉及各种各样的算法的。 中文分词与英文分词有很大的不同,对英文而言,一个单词就是一个词,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,需要人为切分。根据其特点,可以把分词算法分为四大类: ·基于规则的分词方法 ·基于统计的分词方法 ·基于语义的分词方法 ·基于理解
  3. 所属分类:其它

    • 发布日期:2020-12-17
    • 文件大小:142336
    • 提供者:weixin_38638292
  1. python使用jieba实现中文分词去停用词方法示例

  2. 前言 jieba 基于Python的中文分词工具,安装使用非常方便,直接pip即可,2/3都可以,功能强悍,十分推荐。 中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。 分词模块jieba,它是python比较好用的分词模块。待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8 支持三种分词模式       1 精确模式,试图将句子最精确
  3. 所属分类:其它

    • 发布日期:2020-12-23
    • 文件大小:51200
    • 提供者:weixin_38667581
  1. Python中文分词库jieba,pkusegwg性能准确度比较

  2. 中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组。英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是同个含义,因此,中文分词相比英文分词难度高很多。 分词主要用于NLP 自然语言处理(Natural Language Processing),使用场景有: 搜索优化,关键词提取(百度指数) 语义分析,智能问答系统(客服系统) 非结构化文本媒体内容,如社交信息(微博热榜) 文本聚类,根据内容生成分类(行业分类) Python的
  3. 所属分类:其它

    • 发布日期:2020-12-20
    • 文件大小:655360
    • 提供者:weixin_38717031
  1. scws:开源免费的简易中文分词系统,PHP分词的上乘之选!-源码

  2. SCWS的自述文件 $ Id $ SCWS简介 是Simple Chinese Word Segmentation的首字母缩写(即:简易中文分词系统)。这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分开的词。词是中文的最小语素单位,但在书写时并不像英语会在词之间用间隔分开,所以如何准确并快速分词一直是中文分词的攻关难点。 SCWS采用纯C语言开发,不依赖任何外部库函数,可直接使用动态链接库嵌入应用程序,支持的中文编码包括GBK , UTF-8等。几乎还提供了扩展模
  3. 所属分类:其它

    • 发布日期:2021-03-11
    • 文件大小:7340032
    • 提供者:weixin_42181545
  1. 开源php中文分词系统SCWS安装和使用实例

  2. 一、SCWS简介 SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统)。这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词。 词是中文的最小语素单位,但在书写时并不像英语会在词之间用空格分开, 所以如何准确并快速分词一直是中文分词的攻关难点。SCWS 采用纯 C 语言开发,不依赖任何外部库函数,可直接使用动态链接库嵌入应用程序, 支持的中文编码包括 GBK、UTF-8 等。此外还提供了 PHP 扩展模
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:63488
    • 提供者:weixin_38581405
« 12 3 4 5 »