搜索资源 - 中文简体分词 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 中文简体分词

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

JE中文分词je-analysis-1.5.1.jar
1.5.1 —— 2006-01-22 修正细粒度分词错误的问题 1.5.0 —— 2007-01-18 全面支持Lucene 2.0 增强了词典维护的API 增加了商品编码的匹配增加了Mail地址的匹配实现了词尾消歧算法第二层的过滤整理优化了词库 1.4.0 —— 2006-08-21 增加词典的动态扩展能力 1.3.3 —— 2006-07-23 修正无法多次增加词典的问题 1.3.2 —— 2006-07-03 修正细粒度分词错误的问题 1.3.1 —— 2006-0 6-23 修
所属分类：其它
- 发布日期：2009-04-28
- 文件大小：891904
- 提供者：tiancen2001

刨丁解羊中文分词器-主要用于对网络蜘蛛或网络爬虫抓取的网页进行分词
刨丁解羊中文分词器，主要用于对网络蜘蛛或网络爬虫抓取的网页进行分词，支持繁体中文分词、简体中文分词、英文分词，是制作通用搜索引擎和垂直搜索引擎的核心组件。该软件在普通PC机器上测试显示：TXT格式正文分词速度约为3000万字/分钟，网页分词速度约为277.8个网页/秒。该软件采用基础词库（63万词语）+扩展词库（用户可手工添加新词）。DLL及OCX调用请联系QQ(601069289)。
所属分类：网络基础
- 发布日期：2010-08-30
- 文件大小：2097152
- 提供者：henggua

SCWS简体中文分词辞典txt格式
这是我在研究中文分词时找到的一个辞典。感谢hightman的基础工作。==============================================SCWS-1.x.x 自述文件 (Written by hightman)HomePage: http://www.hightman.cn...[SCWS 简介]SCWS 是 Simple Chinese Words Segmentation 的缩写（简易中文分词系统）。它是一套基于词频词典的机械中文分词引擎，它能将一整段的汉字基本正
所属分类：专业指导
- 发布日期：2008-03-15
- 文件大小：5242880
- 提供者：oldfox126

je-analysis-1.5.1.jar
import jeasy.analysis.MMAnalyzer;支持英文、数字、中文（简体）混合分词常用的数量和人名的匹配超过22万词的词库整理实现正向最大匹配算法 //采用正向最大匹配的中文分词算法，相当于分词粒度等于0 MMAnalyzer analyzer = new MMAnalyzer(); //参数为分词粒度：当字数等于或超过该参数，且能成词，该词就被切分出来 MMAnalyzer analyzer = new MMAnalyzer(2); //增加一个新词典，采用每行一个
所属分类：Java
- 发布日期：2011-11-24
- 文件大小：891904
- 提供者：opzoonzhuzhengke

中文分词软件
中文简体分词工具，在开发主观题评分，在线商城及其他系统时希望对你有帮助
所属分类：其它
- 发布日期：2012-01-03
- 文件大小：26214400
- 提供者：liu906745119

分词组件V2.3.1源码
分词组件V2.3.1源码程序介绍：盘古分词是一个中英文分词组件。作者eaglet 曾经开发过KTDictSeg 中文分词组件，拥有大量用户来自51ASPX。作者基于之前分词组件的开发经验，结合最新的开发技术重新编写了盘古分词组件。中文分词功能中文未登录词识别盘古分词可以对一些不在字典中的未登录词自动识别词频优先盘古分词可以根据词频来解决分词的歧义问题多元分词盘古分词提供多重输出解决分词粒度和分词精度权衡的问题中文人名识别输入： “张三说的确实在理” 分词结果：张三/说/
所属分类：C#
- 发布日期：2012-05-23
- 文件大小：6291456
- 提供者：ss_geng

ShootSearch 中文分词组件(c#开源)
ShootSearch 中文分词组件(c#开源) 技术支持:support@shootsoft.net http://www.shootsoft.net 分词算法:词库+最大匹配词库来自www.jesoft.cn,已经过一定的修改使用说明: 先加载词库,再进行分词.分词过程重载两次:支持回车的和不支持回车的,注意选择! 可以手动添加词语到sDict.txt,不过每次手动修改后需要调用SortDic()方法,否则无法实现最大匹配! sDict.txt的编码为UTF-8! 示例: 文字内容来自
所属分类：C#
- 发布日期：2006-08-18
- 文件大小：1001472
- 提供者：shootsoft

盘古分词源代码
盘古分词是一个基于 .net framework 的中英文分词组件。主要功能中文未登录词识别盘古分词可以对一些不在字典中的未登录词自动识别词频优先盘古分词可以根据词频来解决分词的歧义问题多元分词盘古分词提供多重输出解决分词粒度和分词精度权衡的问题中文人名识别输入： “张三说的确实在理” 分词结果：张三/说/的/确实/在理/ 输入 “李三买了一张三角桌子” 分词结果：李三/买/了/一张/三角/桌子/ 强制一元分词输入 “张三说的确实在理” 分词结果：张(0,1)/张三(0,5
所属分类：C#
- 发布日期：2013-02-17
- 文件大小：681984
- 提供者：trustman

横瓜中文分词器
横瓜中文分词器，主要用于对网络蜘蛛或网络爬虫抓取的网页进行分词，支持繁体中文分词、简体中文分词、英文分词，是制作通用搜索引擎和垂直搜索引擎的核心组件。该软件在普通PC机器上测试显示：TXT格式正文分词速度约为3000万字/分钟，网页分词速度约为277.8个网页/秒。该软件采用基础词库（63万词语）+扩展词库（用户可手工添加新词）。
所属分类：Web开发
- 发布日期：2013-02-26
- 文件大小：660480
- 提供者：xiaocaixuexinwen

Lucene中文分词组件 JE-Analysis 1.4.0
该组件免费安装使用传播，无限制商业应用，但暂不开源，也不提供任何保证分词效率：第一次分词需要1－2秒（读取词典），之后速度基本与Lucene自带分词持平运行环境： Lucene 1.9+ 内存消耗： 30M+ 1.4.0 —— 2006-08-21 增加词典的动态扩展能力 1.3.3 —— 2006-07-23 修正无法多次增加词典的问题 1.3.2 —— 2006-07-03 修正细粒度分词错误的问题 1.3.1 —— 2006-06-23 修正在某些情况下分词遗漏的问题 1.3 ——
所属分类：其它
- 发布日期：2006-09-22
- 文件大小：0
- 提供者：chenxhcc

Lucene中文分词组件 JE-Analysis 1.5.1
发布于：http://www.jesoft.cn/posts/list/5.page 1.5.1 —— 2006-01-22 修正细粒度分词错误的问题 1.5.0 —— 2007-01-18 全面支持Lucene 2.0 增强了词典维护的API 增加了商品编码的匹配增加了Mail地址的匹配实现了词尾消歧算法第二层的过滤整理优化了词库 1.4.0 —— 2006-08-21 增加词典的动态扩展能力 1.3.3 —— 2006-07-23 修正无法多次增加词典的问题 1.3.2 —— 200
所属分类：其它
- 发布日期：2007-01-22
- 文件大小：891904
- 提供者：diystar

SEO发词工具
刨丁解羊中文分词器，主要用于对网络蜘蛛或网络爬虫抓取的网页进行分词，支持繁体中文分词、简体中文分词、英文分词，是制作通用搜索引擎和垂直搜索引擎的核心组件。该软件在普通PC机器上测试显示：TXT格式正文分词速度约为3000万字/分钟，网页分词速度约为277.8个网页/秒。该软件采用基础词库（63万词语）+扩展词库（用户可手工添加新词）。DLL及OCX 调用请联系QQ(601069289)。
所属分类：网络基础
- 发布日期：2014-08-28
- 文件大小：57344
- 提供者：hongling2014

c# cnSeg 简体中文分词
c# cnSeg 简体中文分词,不错的学习分词
所属分类：C#
- 发布日期：2014-11-15
- 文件大小：12582912
- 提供者：chinacsdnmrb

盘古分词2.3.1.0
盘古分词可以根据词频来解决分词的歧义题目多元分词盘古分词提供多重输入解决分词粒度和分词精度衡量的问题详见eaglet/archive/2008/10/02/.html 中文人名识别输入：“张三说切实其实实在理” 分词了局：张三/说/的/确实/在理/ 输入“李三买了一张三角桌子” 分词结果：李三/买/了/一张/三角/桌子/ 详见eaglet/archive/2009/08/19/.html 强逼一元分词输入“张三说的确实在理” 分词结果：中文。张(0,1)/张三(0,5)/三说的(1,
所属分类：C#
- 发布日期：2017-08-18
- 文件大小：207872
- 提供者：xzhanjing55

Java 词海分析自然语言分析人名地名机构名提取自定义词典
中文分词最短路分词 N-最短路分词 CRF分词索引分词极速词典分词用户自定义词典词性标注命名实体识别中国人名识别音译人名识别日本人名识别地名识别实体机构名识别关键词提取 TextRank关键词提取自动摘要 TextRank自动摘要短语提取基于互信息和左右信息熵的短语提取拼音转换多音字声母韵母声调简繁转换繁体中文分词简繁分歧词（简体、繁体、臺灣正體、香港繁體）文本推荐语义推荐拼音推荐字词推荐依存句法分析基于神经网络的高性能依存句法分析器
所属分类：Java
- 发布日期：2017-10-11
- 文件大小：22020096
- 提供者：vip923803855

中文停用词表
最新简体中文常见停用词表：stopwords.txt，最近在学习爬虫，需要分词就找到的一个资源。
所属分类：软件测试
- 发布日期：2018-03-21
- 文件大小：2048
- 提供者：sy759770423

nlp工具 word2vec nltk textblob crf++ 机器人中文翻译繁体转简体关键词主题命名体识别分词聚类词性标注词向量
本资源属于代码类，是一些nlp工具的使用 nlp 工具 word2vec nltk textblob crf++ （1）机器人（2）中文翻译，及繁体转简体（3）关键词提取，主题提取，摘要提取（4）命名体识别（5）分词（6）情感分析，正负类分析（7）近义词，同义词，句子相似性（8）聚类，监督，无监督（9）词性标注（10）词向量提取
所属分类：机器学习
- 发布日期：2018-07-20
- 文件大小：1048576
- 提供者：u013378306

中文维基百科语料库百度网盘网址.txt
本资源是维基百科中文网页的语料库（包含处理过的与未处理的），版本为2020-8-3版本，可适用于中文语料处理等训练集。由于文件过大，放在的百度网盘中，如果网盘被和谐或者其他原因造成的无法打开，请评论留言，本人看到后立即更改。文件中包含的内容有：未经处理的维基百科语料库、使用代码处理繁体转简体并jieba分词后的语料库、繁体转简体的代码，读者可根据自己的需要进行相应的提取。
所属分类：Python
- 发布日期：2020-08-10
- 文件大小：769
- 提供者：qq_35357274

帝国网站管理系统(ECMS) v6.0 简体中文 GBK
EmpireCMS6.0不仅增加了高性能、高容量的系统构架，还新增了： ·更加强大灵活的系统模型扩展 ·全站全文搜索功能：采用中文分词、编码转码和Mysql全文检索技术结合，搜索非常高效。解决了同时搜索多个表的数据、搜索存文本模型的内容、在大数据量情况下的全
所属分类：其它
- 发布日期：2020-12-01
- 文件大小：3145728
- 提供者：weixin_38742453

【NLP】之结巴分词
1.结巴分词简介结巴分词是当前效果较好的一种中文分词器，支持中文简体、中文繁体分词，同时还支持自定义词库。结巴分词支持三种分词模式：精确模式、全模式和搜索引擎模式。精确模式是试图将句子最精确的进行切分，适合用于文本分析；全模式的原理是把句子中全部可以成词的词语全部扫描出来，它的分词速度快，缺点是无法识别歧义词句；搜索引擎模式是在精确模式的基础上进一步处理的，它对较长的词语再进行分割，将召回率提高，适合于搜索引擎分词。结巴分词自带一个词典，内含20000多条词，及词条出现的次数与词
所属分类：其它
- 发布日期：2021-01-20
- 文件大小：159744
- 提供者：weixin_38531017

« 12 3 »