您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. JE中文分词je-analysis-1.5.1.jar

  2. 1.5.1 —— 2006-01-22 修正细粒度分词错误的问题 1.5.0 —— 2007-01-18 全面支持Lucene 2.0 增强了词典维护的API 增加了商品编码的匹配 增加了Mail地址的匹配 实现了词尾消歧算法第二层的过滤 整理优化了词库 1.4.0 —— 2006-08-21 增加词典的动态扩展能力 1.3.3 —— 2006-07-23 修正无法多次增加词典的问题 1.3.2 —— 2006-07-03 修正细粒度分词错误的问题 1.3.1 —— 2006-0 6-23 修
  3. 所属分类:其它

    • 发布日期:2009-04-28
    • 文件大小:891904
    • 提供者:tiancen2001
  1. 刨丁解羊中文分词器-主要用于对网络蜘蛛或网络爬虫抓取的网页进行分词

  2. 刨丁解羊中文分词器,主要用于对网络蜘蛛或网络爬虫抓取的网页进行分词,支持繁体中文分词、简体中文分词、英文分词,是制作通用搜索引擎和垂直搜索引擎的核心组件。该软件在普通PC机器上测试显示:TXT格式正文分词速度约为3000万字/分钟,网页分词速度约为277.8个网页/秒。该软件采用基础词库(63万词语)+扩展词库(用户可手工添加新词)。DLL及OCX调用请联系QQ(601069289)。
  3. 所属分类:网络基础

    • 发布日期:2010-08-30
    • 文件大小:2097152
    • 提供者:henggua
  1. SCWS简体中文分词辞典txt格式

  2. 这是我在研究中文分词时找到的一个辞典。感谢hightman的基础工作。==============================================SCWS-1.x.x 自述文件 (Written by hightman)HomePage: http://www.hightman.cn...[SCWS 简介]SCWS 是 Simple Chinese Words Segmentation 的缩写(简易中文分词系统)。它是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正
  3. 所属分类:专业指导

    • 发布日期:2008-03-15
    • 文件大小:5242880
    • 提供者:oldfox126
  1. je-analysis-1.5.1.jar

  2. import jeasy.analysis.MMAnalyzer;支持英文、数字、中文(简体)混合分词 常用的数量和人名的匹配 超过22万词的词库整理 实现正向最大匹配算法 //采用正向最大匹配的中文分词算法,相当于分词粒度等于0 MMAnalyzer analyzer = new MMAnalyzer(); //参数为分词粒度:当字数等于或超过该参数,且能成词,该词就被切分出来 MMAnalyzer analyzer = new MMAnalyzer(2); //增加一个新词典,采用每行一个
  3. 所属分类:Java

  1. 中文分词软件

  2. 中文简体分词工具,在开发主观题评分,在线商城及其他系统时希望对你有帮助
  3. 所属分类:其它

    • 发布日期:2012-01-03
    • 文件大小:26214400
    • 提供者:liu906745119
  1. 分词组件V2.3.1源码

  2. 分词组件V2.3.1源码 程序介绍: 盘古分词是一个中英文分词组件。作者eaglet 曾经开发过KTDictSeg 中文分词组件,拥有大量用户来自51ASPX。 作者基于之前分词组件的开发经验,结合最新的开发技术重新编写了盘古分词组件。 中文分词功能 中文未登录词识别 盘古分词可以对一些不在字典中的未登录词自动识别 词频优先 盘古分词可以根据词频来解决分词的歧义问题 多元分词 盘古分词提供多重输出解决分词粒度和分词精度权衡的问题 中文人名识别 输入: “张三说的确实在理” 分词结果:张三/说/
  3. 所属分类:C#

    • 发布日期:2012-05-23
    • 文件大小:6291456
    • 提供者:ss_geng
  1. ShootSearch 中文分词组件(c#开源)

  2. ShootSearch 中文分词组件(c#开源) 技术支持:support@shootsoft.net http://www.shootsoft.net 分词算法:词库+最大匹配 词库来自www.jesoft.cn,已经过一定的修改 使用说明: 先加载词库,再进行分词.分词过程重载两次:支持回车的和不支持回车的,注意选择! 可以手动添加词语到sDict.txt,不过每次手动修改后需要调用SortDic()方法,否则无法实现最大匹配! sDict.txt的编码为UTF-8! 示例: 文字内容来自
  3. 所属分类:C#

    • 发布日期:2006-08-18
    • 文件大小:1001472
    • 提供者:shootsoft
  1. 盘古分词源代码

  2. 盘古分词是一个基于 .net framework 的中英文分词组件。主要功能 中文未登录词识别 盘古分词可以对一些不在字典中的未登录词自动识别 词频优先 盘古分词可以根据词频来解决分词的歧义问题 多元分词 盘古分词提供多重输出解决分词粒度和分词精度权衡的问题 中文人名识别 输入: “张三说的确实在理” 分词结果:张三/说/的/确实/在理/ 输入 “李三买了一张三角桌子” 分词结果:李三/买/了/一张/三角/桌子/ 强制一元分词 输入 “张三说的确实在理” 分词结果: 张(0,1)/张三(0,5
  3. 所属分类:C#

    • 发布日期:2013-02-17
    • 文件大小:681984
    • 提供者:trustman
  1. 横瓜中文分词器

  2. 横瓜中文分词器,主要用于对网络蜘蛛或网络爬虫抓取的网页进行分词,支持繁体中文分词、简体中文分词、英文分词,是制作通用搜索引擎和垂直搜索引擎的核心组件。该软件在普通PC机器上测试显示:TXT格式正文分词速度约为3000万字/分钟,网页分词速度约为277.8个网页/秒。该软件采用基础词库(63万词语)+扩展词库(用户可手工添加新词)。
  3. 所属分类:Web开发

  1. Lucene中文分词组件 JE-Analysis 1.4.0

  2. 该组件免费安装使用传播,无限制商业应用,但暂不开源,也不提供任何保证 分词效率: 第一次分词需要1-2秒(读取词典),之后速度基本与Lucene自带分词持平 运行环境: Lucene 1.9+ 内存消耗: 30M+ 1.4.0 —— 2006-08-21 增加词典的动态扩展能力 1.3.3 —— 2006-07-23 修正无法多次增加词典的问题 1.3.2 —— 2006-07-03 修正细粒度分词错误的问题 1.3.1 —— 2006-06-23 修正在某些情况下分词遗漏的问题 1.3 ——
  3. 所属分类:其它

    • 发布日期:2006-09-22
    • 文件大小:0
    • 提供者:chenxhcc
  1. Lucene中文分词组件 JE-Analysis 1.5.1

  2. 发布于:http://www.jesoft.cn/posts/list/5.page 1.5.1 —— 2006-01-22 修正细粒度分词错误的问题 1.5.0 —— 2007-01-18 全面支持Lucene 2.0 增强了词典维护的API 增加了商品编码的匹配 增加了Mail地址的匹配 实现了词尾消歧算法第二层的过滤 整理优化了词库 1.4.0 —— 2006-08-21 增加词典的动态扩展能力 1.3.3 —— 2006-07-23 修正无法多次增加词典的问题 1.3.2 —— 200
  3. 所属分类:其它

    • 发布日期:2007-01-22
    • 文件大小:891904
    • 提供者:diystar
  1. SEO发词工具

  2. 刨丁解羊中文分词器,主要用于对网络蜘蛛或网络爬虫抓取的网页进行分词,支持繁体中文分 词、简体中文分词、英文分词,是制作通用搜索引擎和垂直搜索引擎的核心组件。该软件在普 通PC机器上测试显示:TXT格式正文分词速度约为3000万字/分钟,网页分词速度约为277.8个 网页/秒。该软件采用基础词库(63万词语)+扩展词库(用户可手工添加新词)。DLL及OCX 调用请联系QQ(601069289)。
  3. 所属分类:网络基础

    • 发布日期:2014-08-28
    • 文件大小:57344
    • 提供者:hongling2014
  1. c# cnSeg 简体中文分词

  2. c# cnSeg 简体中文分词,不错的学习分词
  3. 所属分类:C#

    • 发布日期:2014-11-15
    • 文件大小:12582912
    • 提供者:chinacsdnmrb
  1. 盘古分词2.3.1.0

  2. 盘古分词可以根据词频来解决分词的歧义题目 多元分词 盘古分词提供多重输入解决分词粒度和分词精度衡量的问题 详见eaglet/archive/2008/10/02/.html 中文人名识别 输入:“张三说切实其实实在理” 分词了局:张三/说/的/确实/在理/ 输入“李三买了一张三角桌子” 分词结果:李三/买/了/一张/三角/桌子/ 详见eaglet/archive/2009/08/19/.html 强逼一元分词 输入“张三说的确实在理” 分词结果:中文。张(0,1)/张三(0,5)/三说的(1,
  3. 所属分类:C#

    • 发布日期:2017-08-18
    • 文件大小:207872
    • 提供者:xzhanjing55
  1. Java 词海分析 自然语言分析 人名地名机构名提取自定义词典

  2. 中文分词 最短路分词 N-最短路分词 CRF分词 索引分词 极速词典分词 用户自定义词典 词性标注 命名实体识别 中国人名识别 音译人名识别 日本人名识别 地名识别 实体机构名识别 关键词提取 TextRank关键词提取 自动摘要 TextRank自动摘要 短语提取 基于互信息和左右信息熵的短语提取 拼音转换 多音字 声母 韵母 声调 简繁转换 繁体中文分词 简繁分歧词(简体、繁体、臺灣正體、香港繁體) 文本推荐 语义推荐 拼音推荐 字词推荐 依存句法分析 基于神经网络的高性能依存句法分析器
  3. 所属分类:Java

    • 发布日期:2017-10-11
    • 文件大小:22020096
    • 提供者:vip923803855
  1. 中文停用词表

  2. 最新简体中文常见停用词表:stopwords.txt,最近在学习爬虫,需要分词就找到的一个资源。
  3. 所属分类:软件测试

    • 发布日期:2018-03-21
    • 文件大小:2048
    • 提供者:sy759770423
  1. nlp工具 word2vec nltk textblob crf++ 机器人 中文翻译 繁体转简体 关键词 主题 命名体识别 分词 聚类 词性标注 词向量

  2. 本资源属于代码类,是一些nlp工具的使用 nlp 工具 word2vec nltk textblob crf++ (1)机器人 (2)中文翻译,及繁体转简体 (3)关键词提取,主题提取,摘要提取 (4)命名体识别 (5)分词 (6)情感分析,正负类分析 (7)近义词,同义词,句子相似性 (8)聚类,监督,无监督 (9)词性标注 (10)词向量提取
  3. 所属分类:机器学习

    • 发布日期:2018-07-20
    • 文件大小:1048576
    • 提供者:u013378306
  1. 中文维基百科语料库百度网盘网址.txt

  2. 本资源是维基百科中文网页的语料库(包含处理过的与未处理的),版本为2020-8-3版本,可适用于中文语料处理等训练集。由于文件过大,放在的百度网盘中,如果网盘被和谐或者其他原因造成的无法打开,请评论留言,本人看到后立即更改。 文件中包含的内容有:未经处理的维基百科语料库、使用代码处理繁体转简体并jieba分词后的语料库、繁体转简体的代码,读者可根据自己的需要进行相应的提取。
  3. 所属分类:Python

    • 发布日期:2020-08-10
    • 文件大小:769
    • 提供者:qq_35357274
  1. 帝国网站管理系统(ECMS) v6.0 简体中文 GBK

  2. EmpireCMS6.0不仅增加了高性能、高容量的系统构架,还新增了: ·更加强大灵活的系统模型扩展 ·全站全文搜索功能:采用中文分词、编码转码和Mysql全文检索技术结合,搜索非常高效。解决了同时搜索多个表的数据、搜索存文本模型的内容、在大数据量情况下的全
  3. 所属分类:其它

    • 发布日期:2020-12-01
    • 文件大小:3145728
    • 提供者:weixin_38742453
  1. 【NLP】之 结巴分词

  2. 1.结巴分词简介 结巴分词是当前效果较好的一种中文分词器,支持中文简体、中文繁体分词,同时还支持自定义词库。 结巴分词支持三种分词模式:精确模式、全模式和搜索引擎模式。 精确模式是试图将句子最精确的进行切分,适合用于文本分析; 全模式的原理是把句子中全部可以成词的词语全部扫描出来,它的分词速度快,缺点是无法识别歧义词句; 搜索引擎模式是在精确模式的基础上进一步处理的,它对较长的词语再进行分割,将召回率提高,适合于搜索引擎分词。 结巴分词自带一个词典,内含20000多条词,及词条出现的次数与词
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:159744
    • 提供者:weixin_38531017
« 12 3 »