搜索资源 - 中文预料 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 中文预料

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

sogou中文语料库
相对比较完整的中文语料库，用于中文本分类的训练预料
所属分类：Java
- 发布日期：2009-05-06
- 文件大小：139264
- 提供者：kinas2u

sogou语料库迷你版本
sogou 预料库的迷你版本，可用于中文分词的测试，就是一个训练集
所属分类：Java
- 发布日期：2009-06-05
- 文件大小：169984
- 提供者：chang84629

计流量软件NewWish 中文汉化
DU Meter 是显示直观的网络流量监视器，既有数字显示又有图形显示。让你清楚的看到浏览时以及上传下载时的数据传输情况，实时监测你的上传和下载的网速。新版增加了观测日流量、周流量、月流量等累计统计数据，并可导出为多种文件格式。．最新的4.0版提供了更强大的分类统计和报告功能，强烈推荐。英文原版已知问题：1、“检查更新”窗口“不再提示”复选框不可用，不管“选项”－“常规”中的“自动检查更新”项是否勾选； 2、“选项”－“流量监视窗口”－“窗口属性”标签－“边框格式”下拉列表中的“最小(细边
所属分类：网络攻防
- 发布日期：2010-02-11
- 文件大小：1048576
- 提供者：jincheng1021

2010全球十大微博客产品评测（40P）
全球十大微博客产品评测：前言、时间、对象及标准一前言微博客服务是目前互联网最热门的服务，用户可以利用PC、手机等各种可连接网络的终端应用访问微博客服务，将自己的最新动态和想法以短消息的形式发送给好友或者追随者。与传统博客不同的是，用户可以随时随地用各种方式表达自己的想法以及动态，因此这项服务很快在全球受到追捧。目前全球用户最多的微博客Twitter已经完成多次融资，最新的一笔融资规模高达1亿美元。由于Twitter被普遍看好，投资商对它目前的估值高达10亿美元。 Twitter的成功也
所属分类：网络基础
- 发布日期：2010-06-27
- 文件大小：4194304
- 提供者：HmilyHeart

JSTL详细标签库介绍
关于java异常处理（讲义）--JSP中文网 JSPCN主页 JSP空间 JSP技术 JSP下载关于我们联系我们当前位置: 首页 --> JSP文章 --> JAVA技术 --> 异常处理 --> 关于java异常处理（讲义） exception 隐含对象谈自定义Exception进行错误处理 When catching exceptions, don't cast your net too wide NoClass
所属分类：Java
- 发布日期：2010-11-01
- 文件大小：4194304
- 提供者：asdfsdcxzcvfdddddddd

Lucene中文分词组件 JE-Analysis 1.5.1
发布于：http://www.jesoft.cn/posts/list/5.page 1.5.1 —— 2006-01-22 修正细粒度分词错误的问题 1.5.0 —— 2007-01-18 全面支持Lucene 2.0 增强了词典维护的API 增加了商品编码的匹配增加了Mail地址的匹配实现了词尾消歧算法第二层的过滤整理优化了词库 1.4.0 —— 2006-08-21 增加词典的动态扩展能力 1.3.3 —— 2006-07-23 修正无法多次增加词典的问题 1.3.2 —— 200
所属分类：其它
- 发布日期：2007-01-22
- 文件大小：891904
- 提供者：diystar

Ant使用指南[文字版][中文]
如果您正在编写 Java 代码却还没有使用 Ant，那么本教程就是为您准备的。不管您当前是否在使用某种不同的生成工具，或者根本就没有使用生成工具，了解关于Ant 的更多知识或许会促使您转而使用它。如果已经在使用 Ant，那么您仍然可能在本教程中发现一些有趣的东西。或许您会发现一些预料之外或无法完全理解的Ant 行为；本教程将会帮助您。或者，也许您熟悉Ant 的基础，但是还想知道诸如将生成文件链接起来、使用 CVS 知识库或编写自定义任务等高级主题；本教程将会介绍所有这些主题。
所属分类：Java
- 发布日期：2014-08-17
- 文件大小：423936
- 提供者：danpo

中文情感分析酒店评论预料
为了弥补国内在中文情感挖掘方面的语料的匮乏，谭松波收集整理了一个较大规模的酒店评论语料。语料规模为10000篇。语料从携程网上自动采集，并经过整理而成。为了方便起见，语料被整理成4个子集: 1.ChnSentiCorp-Htl-ba-2000: 平衡语料，正负类各1000篇。 2.ChnSentiCorp-Htl-ba-4000: 平衡语料，正负类各2000篇。 3.ChnSentiCorp-Htl-ba-6000: 平衡语料，正负类各3000篇。 4.ChnSentiCorp-Htl-unb
所属分类：互联网
- 发布日期：2015-11-16
- 文件大小：3145728
- 提供者：x_i_y_u_e

word2vec词向量训练及中文文本相似度计算【源码+语料】
该资源主要参考我的博客：word2vec词向量训练及中文文本相似度计算 http://blog.csdn.net/eastmount/article/details/50637476 其中包括C语言的Word2vec源代码（从官网下载），自定义爬取的三大百科（百度百科、互动百科、维基百科）中文语料，涉及到国家、景区、动物和人物。同时包括60M的腾讯新闻语料，是一个txt，每行相当于一个新闻。国家包括了Python的Jieba分词代码，详见博客。免费资源希望对你有所帮助~
所属分类：C
- 发布日期：2016-02-18
- 文件大小：148897792
- 提供者：eastmount

中文文本分类语料（复旦）-训练集
这个链接是训练集，测试集请见我的资源本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料，共9833篇文档；train_corpus.rar为训练语料，共9804篇文档，两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源（复旦大学计算机信息与技术系国际数据库中心自然语言处理小组）。文件较大（训练测试各50多兆），下载时请耐心等待。
所属分类：讲义
- 发布日期：2017-02-06
- 文件大小：52428800
- 提供者：github_36326955

中文文本分类语料（复旦）-训练集
共50.38MB。本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料，共9833篇文档；train_corpus.rar为训练语料，共9804篇文档，两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源（复旦大学计算机信息与技术系国际数据库中心自然语言处理小组）。
所属分类：讲义
- 发布日期：2017-03-02
- 文件大小：52428800
- 提供者：wangpei1949

中文文本分类语料（复旦）-训练集
这个链接是训练集，测试集请见我的资源本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料，共9833篇文档；train_corpus.rar为训练语料，共9804篇文档，两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源（复旦大学计算机信息与技术系国际数据库中心自然语言处理小组）
所属分类：其它
- 发布日期：2017-07-07
- 文件大小：52428800
- 提供者：goodluckyue

Drools4[1].0官方使用手册中文.doc
第一章. Drools 4.0 发布版标注 1.1. Drools 4.0的新内容 Drools4.0是从之前的Drools3.0.x系列以来的一次主要更新。在语言表达式，引擎性能和工具实用性方面都有一整套的新特性开发完成。下面列出一些最引人注意的更新列表。 1.1.1. 语言表达式增强 • 新的条件元素: from, collect, accumulate 和forall • 新的字段约束操作: not matches, not contains, in, not in, memberOf,
所属分类：C
- 发布日期：2009-04-16
- 文件大小：5242880
- 提供者：jaweslone

中文自然语言处理中文分词训练语料
本次提供的中文汉语语料syj_trainCorpus_utf8.txt全网免费，转载需要注明出处，语料是作者通过爬取的短文本和网络上的预料处理、合并生成的。整个语料大小264M，包含1116903条数据，数据用空格隔开，可以用来训练分词模型。
所属分类：机器学习
- 发布日期：2018-07-02
- 文件大小：113246208
- 提供者：qq_36330643

中文文本分类语料（复旦）（训练集+测试集）
中文文本分类语料（复旦）-训练集和测试集这个链接是训练集，本语料库由复旦大学李荣陆提供。test_corpus为测试语料，共9833篇文档；train_corpus为训练语料，共9804篇文档，两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源（复旦大学计算机信息与技术系国际数据库中心自然语言处理小组）。文件较大，下载时请耐心等待。
所属分类：算法与数据结构
- 发布日期：2019-01-10
- 文件大小：12582912
- 提供者：littlion

中文文本分类语料-测试集下载
中文文本分类语料-测试集下载是测试集，训练集请见我的资源本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料，共9833篇文档；train_corpus.rar为训练语料，共9804篇文档，两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。
所属分类：算法与数据结构
- 发布日期：2019-04-25
- 文件大小：54525952
- 提供者：heshanhai

中文简繁转换项目OpenCC.zip
Open Chinese Convert（OpenCC）是一个开源的中文简繁转换项目，致力于制作高质量的基于统计预料的简繁转换词库。还提供函数库(libopencc)、命令行简繁转换工具、人工校对工具、词典生成程序、在线转换服务及图形用户界面。特点严格区分「一简对多繁」、「一简对多异」和「地域用词差别」。支持异体字转换，兼容陆港澳台等不同地区用字差别。严格审校一简对多繁词条，原则为「能分则不合」，用户可自定义合并。支持中国大陆、台湾、香港异体字和地区习惯用词转换，如「裏」「裡」、「鼠
所属分类：其它
- 发布日期：2019-07-17
- 文件大小：1048576
- 提供者：weixin_39841848

复旦中文文本分类语料库.zip
本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料，共9833篇文档；train_corpus.rar为训练语料，共9804篇文档，两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。（使用时尽量注明来源（复旦大学计算机信息与技术系国）
所属分类：机器学习
- 发布日期：2020-08-26
- 文件大小：54525952
- 提供者：weixin_42691585

python使用jieba实现中文分词去停用词方法示例
前言 jieba 基于Python的中文分词工具，安装使用非常方便，直接pip即可，2/3都可以，功能强悍，十分推荐。中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词模块jieba，它是python比较好用的分词模块。待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8 支持三种分词模式 1 精确模式，试图将句子最精确
所属分类：其它
- 发布日期：2020-12-23
- 文件大小：51200
- 提供者：weixin_38667581

chatbot：一个可以自己进行训练的中文聊天机器人，根据自己的语料训练出自己想要的聊天机器人，可以用于智能客服，在线问答，智能聊天等场景。目前包含seq2seq，seqGAN版本，tf2.0版本，火炬版本-源码
聊天机器人一个可以使用自己的语言料进行训练的中文聊天机器人，目前包含seq2seq tf1.x和tf.2x版本，seqGan版本为tf1.x版本，pytorch版本，欢迎大家实践交流。关于语料的说明大家可以使用小黄鸡的预料，地址 seq2seq版本代码执行顺序 1，在下载好代码和语料之后，将语料文件放入数据目录下。 2，准备数据预处理器（data_utls.py）-> execute.py（执行器）-> app.py（可视化对话模块）的顺序执行就可以了。 3，超参配置在se
所属分类：其它
- 发布日期：2021-02-05
- 文件大小：29360128
- 提供者：weixin_42126865

« 12 »