搜索资源 - 自动分词系统 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 自动分词系统

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

基于 B Bs 文本信息的中文自动分词系统的研究
基于 B Bs 文本信息的中文自动分词系统的研究。
所属分类：专业指导
- 发布日期：2009-08-21
- 文件大小：1048576
- 提供者：soprettyzz

中科院开发的一个中文分词系统
中科院做的一个中文自动分词系统，是基于VC6.0，MFC对话框下的，对分词的效率及正确率都做了数据统计，对输入的中文语句进行自动分词及词性标注。对打开的待处理的中文文档，进行自动分词及词性标注，而且还将处理后保存到新的文档中！供进行自然语言处理研究的工作人员及学生学习参考！
所属分类：C++
- 发布日期：2010-03-09
- 文件大小：5242880
- 提供者：xiaocong2007_10

中文自动分词&全文检索@统计工具(GBK版
本系统具备中文自动分词、全文检索、统计等基本功能，具体介绍如下： 1、中文自动分词 1）能对给定的中文文本进行自动分词、词性一级、词性二级标注； 2）支持大批量文本的自动分词及词性标注处理，可处理各级子文件夹下的文件； 3）能根据待分词及标注文本的类别，加挂用户自定义词典，进一步提高分词和标注的精确度； 4）用户可对系统词典进行扩展，可添加、删除、查看系统词典，可将系统词典输出为TXT文本编辑后再转换为系统用的电子词典； 5）支持人名、地名、机构名等未登录词识别，支持基于GBK字符集的简、繁体
所属分类：专业指导
- 发布日期：2010-04-22
- 文件大小：3145728
- 提供者：lonewar

KTDictSeg分词系统V1.3.01
* KTDictSeg 简介: KTDictSeg 是由KaiToo搜索开发的一款基于字典的简单中英文分词算法 * 主要功能: 中英文分词，未登录词识别,多元歧义自动识别,全角字符识别能力 * 主要性能指标: * 分词准确度:90%以上(有待专家的权威评测) 代码采用 Visual Studio 2005 编译通过，需在.net framework 2.0 下运行
所属分类：其它
- 发布日期：2010-04-27
- 文件大小：2097152
- 提供者：kang2004wei

灵柩软件可用于汉语分词处理
LJParser文本搜索与挖掘开发平台的十大功能： 1. 全文精准检索支持文本、数字、日期、字符串等各种数据类型，多字段的高效搜索，支持AND/OR/NOT以及NEAR邻近等查询语法，支持维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。可以无缝地与现有文本处理系统与数据库系统融合。 2. 新词发现：从文件集合中挖掘出内涵的新词语列表，可以用于用户专业词典的编撰；还可以进一步编辑标注，导入分词词典中，从而提高分词系统的准确度，并适应新的语言变化。 3. 分词标注：对原始语料进行分词
所属分类：Web开发
- 发布日期：2010-11-05
- 文件大小：688128
- 提供者：zhangguoqiang52

ICTCLAS中文分词工具--eclipse中的应用
ICTCLAS分词系统Java调用接口在Eclipse中的安装（作者：刘利军　昆明理工大学　智能系统研究室）实验环境：JDK1.5、Eclipse3.1、XP操作系统分词系统Java接口解压包：d:\fenci（http://www.nlp.org.cn中查找下载）导入步骤：在Eclipse中新建Java项目，名称为：WordSpli，目录结构如下所示：右击WordSplit项目，选择“导入”，将弹出导入窗口，选择列表中的“文件系统”，弹出“文件系统”导入窗口，选择相关文件（如下图所示）:(
所属分类：Java
- 发布日期：2008-03-11
- 文件大小：2097152
- 提供者：leehao_bupt

中文分词十年回顾自动分词系统
过去的十年间，尤其是2003年国际中文分词评测活动Bakeoff开展以来，中文自动分词技术有了可喜的进步。其主要表现为：(1)通过“分词规范+词表+分词语料库”的方法，使中文词语在真实文本中得到了可计算的定义，这是实现计算机自动分词和可比评测的基础；(2)实践证明，基于手工规则的分词系统在评测中不敌基于统计学习的分词系统；(3)在Bakeoff数据上的评估结果表明，未登录词造成的分词精度失落至少比分词歧义大5倍以上；(4)实验证明，能够大幅度提高未登录词识别性能的字标注统计学习方法优于
所属分类：其它
- 发布日期：2011-04-10
- 文件大小：1048576
- 提供者：lwccb

chinesetokenize中文分词
1. 识别率达到85%以上。虽然和专业分词系统相比有一定的差距，但对于中型搜索引擎分词需求而言足够了。2. 对于前后歧义有较好的识别效果。如，成都市场报刊 -- 成都 / 市场 / 报刊中国和服装饰公司 -- 中国 / 和服 / 装饰 / 公司我的MSN是eunge.liu@gmail.com，有事找我 -- 我 / 的 / MSN / 是 / eunge.liu@gmail.com / 有事 / 找 / 我3. 标点符号自动过滤，包括ASCII和Unicode标点。4. 自定义噪音词（不知道
所属分类：其它
- 发布日期：2008-05-23
- 文件大小：1037312
- 提供者：wuqueyouhen

ICTCLAS2009版中文分词系统
中国科学院计算技术研究所在多年研究工作积累的基础上，研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)，主要功能包括中文分词；词性标注；命名实体识别；新词识别；同时支持用户词典。我们先后精心打造五年，内核升级7次，目前已经升级到了ICTCLAS2009 用户词典接口扩展用户可以动态增加、删除用户词典中的词，调节分词的效果。提高了用户词典使用的灵活性。分词粒度可调可以
所属分类：C++
- 发布日期：2012-01-02
- 文件大小：9437184
- 提供者：yahawami

中科院分词器ICTCLAS
中科院语义分词 ICTCLAS 中科院官方于2009年2月19日发布了中科院中文分词器ICTCLAS2009版，转引官方介绍说明，新版本的中文分词系统在原有的基础上主要完善的有： 1、用户词典接口扩展用户可以动态增加、删除用户词典中的词，调节分词的效果。提高了用户词典使用的灵活性。 2、分词粒度可调可以控制分词结果的粒度。共享版本提供两种分词粒度，标准粒度和粗粒度，满足不同用户的需求。 3、词性标注功能加强多种标注级的选择，系统可供选择的标注级有：计算所一级标注级，计算所二级标注集，北大
所属分类：Web开发
- 发布日期：2012-03-08
- 文件大小：2097152
- 提供者：abing79

pscws23-20081221.tar.bz2【中文分词】
php中文分词 ===== PSCWS23 - 说明文档 ===== $Id: readme.txt,v 1.3 2008/12/21 04:37:59 hightman Exp $ [ 关于 PSCWS23 ] PSCWS23 是由 hightman 于 2006 年开发的纯 PHP 代码实现的简易中文分词系统第二和第三版的简称。 PSCWS 是英文 PHP Simple Chinese Words Segmentation 的头字母缩写，它是 SCWS 项目的前身。现 SCWS 已作为
所属分类：PHP
- 发布日期：2013-09-08
- 文件大小：2097152
- 提供者：yao__shun__yu

中科院分词系统 ICTCLAS2011 JNI版（Java语言）
ICTCLAS 2011，内核版本5.0，改版后分词速度更快；稳定性更高。以往版本需要进行编码转换，统一转换成GB2312之后才能做进一步处理。系统当前版本支持GB2312、GBK、UTF-8、BIG5等编码。以上编码无需做任何转换，即可进行后续处理。用户可指定需要处理数据的具体编码（有利于提高速度）也可让系统自动识别编码。本版新增了对繁体中文即BIG5的识别处理。本版对Windows7支持良好。支持大用户词典。
所属分类：Java
- 发布日期：2014-03-03
- 文件大小：8388608
- 提供者：specialhappy

汉语自动分词
调用“海量智能分词”提供的动态链接库，实现汉语自动分词，并且搭建图形界面用于操作和显示。首先下载“海量智能分词”软件，解压后拷出include文件夹下的HLSegFunc.h、HLPubDef.h和dll&lib文件夹下的HLSSplit.dll、HLSplitWord.dat、HLSSplit.lib。同时要将HLSSplit.lib、HLSegFunc.h、HLPubDef.h拷贝至工程目录下，将HLSSplit.dll、HLSplitWord.dat拷至Debug目录下。（上述文件已经
所属分类：C++
- 发布日期：2014-12-30
- 文件大小：6291456
- 提供者：u010839382

中文分词(C语言版)含技术文档和源代码还有词库
本中文分词系统,速度大约1万字/1秒,大小100K(免费+开源+86万词库+操作示意图+测试用例) 目前系统在进行了大规模分词测试后的大致性能指标如下： 1000字以内的文章完全切分，用时间不超过 10毫秒！ 5000字以内的文章完全切分，用时间不超过 500毫秒！ 10000字以内的文章完全切分，用时间不超过 1秒！本版本是简易版，分词准确率为 91.8%，系统稳定性为99.99%,中文分词系统符合工业化的标准！目前支持中英文混合切分词，各种全角，半角标点符号的过滤！系统自带词库含有
所属分类：C
- 发布日期：2009-02-10
- 文件大小：1048576
- 提供者：czw0005

用纯C语言开发了一个中文分词系统,速度大约1万字/1秒,大小100K(免费+开源+86万词库+操作示意图+测试用例)
用纯C语言开发了一个中文分词系统,速度大约1万字/1秒,大小100K(免费+开源+86万词库+操作示意图+测试用例) 用法很简单,比如:你把中文分词系统解压后保存到D:\那你直接在 dos 窗口下输入: d:\cfenci.exe 然后回车就可以了! 启动无需任何参数。目前系统在进行了大规模分词测试后的大致性能指标如下： 1000字以内的文章完全切分，用时间不超过 10毫秒！ 5000字以内的文章完全切分，用时间不超过 500毫秒！ 10000字以内的文章完全切分，用时间不超过 1秒！本版
所属分类：C
- 发布日期：2009-02-10
- 文件大小：1048576
- 提供者：sureubet

ICTCLAS2009版中文分词系统
中国科学院计算技术研究所在多年研究工作积累的基础上，研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)，主要功能包括中文分词；词性标注；命名实体识别；新词识别；同时支持用户词典。我们先后精心打造五年，内核升级7次，目前已经升级到了ICTCLAS2009 用户词典接口扩展用户可以动态增加、删除用户词典中的词，调节分词的效果。提高了用户词典使用的灵活性。分词粒度可调可以
所属分类：嵌入式
- 发布日期：2009-02-23
- 文件大小：9437184
- 提供者：zhangshibin8500

第三代智能分词系统3GWS
第三代智能分词系统3GWS有汉语智能分词、命名实体与新词识别、词性标注以及支持用户自定义词典等功能，分词精度在96.56%以上，而且具有良好的跨平台性。
所属分类：3G/移动开发
- 发布日期：2009-02-23
- 文件大小：2097152
- 提供者：albert_sky

基于无指导学习策略的无词表条件下的汉语自动分词
基于无指导学习策略和无词表条件下的汉语自动分词方法,以期对研制开放环境下健壮的分词系统.全部分词知识源自从生语料库中自动获得的汉字Bigram
所属分类：Java
- 发布日期：2018-05-24
- 文件大小：178176
- 提供者：m0_37350070

汉语自动分词和命名实体识别
　该资源对命名实体识别和自动分词技术进行了研究。命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。一般来说，命名实体识别的任务就是识别出待处理文本中三大类（实体类、时间类和数字类）、七小类（人名、机构名、地名、时间、日期、货币和百分比）命名实体。
所属分类：互联网
- 发布日期：2012-04-07
- 文件大小：2097152
- 提供者：jjychange

基于DRIS系统中的中文自动分词模块设计与实现
随着信息检索技术越来越受到人们的重视，其中的中文自动分词技术就显得越来越重要。计算机通过对文本中的词语进行识别与处理，直接将结果传送给搜索引擎进行检索。文中在域内资源整合系统（DRIS）的基础上，设计并开发了一个全新的中文自动分词模块。通过算法的比对，选择了正向匹配算法作为该模块的基本算法，对其文件结构，中文词典初始化及识别处理过程做出详细介绍。经后期使用后可比较出该模块在检索效率与服务质量上都有了很大程度上的提高，达到了设计要求。
所属分类：其它
- 发布日期：2021-01-27
- 文件大小：3145728
- 提供者：weixin_38732924

« 12 3 4 5 6 7 8 9 10 ... 13 »