搜索资源 - 文本分类训练集.rar - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 文本分类训练集.rar

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

复旦中文文本分类语料-训练集
由复旦大学李荣陆提供。answer.rar为测试语料，共9833篇文档；train.rar为训练语料，共9804篇文档，分为20个类别。训练语料和测试语料基本按照1:1的比例来划分。收集工作花费了不少人力和物力，所以请大家在使用时尽量注明来源（复旦大学计算机信息与技术系国际数据库中心自然语言处理小组）。文件较大（训练测试各50多兆），下载时请耐心等待。
所属分类：数据库
- 发布日期：2017-02-06
- 文件大小：52428800
- 提供者：github_36326955

中文文本分类语料（复旦）-训练集
这个链接是训练集，测试集请见我的资源本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料，共9833篇文档；train_corpus.rar为训练语料，共9804篇文档，两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源（复旦大学计算机信息与技术系国际数据库中心自然语言处理小组）。文件较大（训练测试各50多兆），下载时请耐心等待。
所属分类：讲义
- 发布日期：2017-02-06
- 文件大小：52428800
- 提供者：github_36326955

中文文本分类语料（复旦）-训练集
共50.38MB。本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料，共9833篇文档；train_corpus.rar为训练语料，共9804篇文档，两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源（复旦大学计算机信息与技术系国际数据库中心自然语言处理小组）。
所属分类：讲义
- 发布日期：2017-03-02
- 文件大小：52428800
- 提供者：wangpei1949

中文文本分类语料（复旦）-训练集
这个链接是训练集，测试集请见我的资源本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料，共9833篇文档；train_corpus.rar为训练语料，共9804篇文档，两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源（复旦大学计算机信息与技术系国际数据库中心自然语言处理小组）
所属分类：其它
- 发布日期：2017-07-07
- 文件大小：52428800
- 提供者：goodluckyue

中文文本分类语料-测试集下载
中文文本分类语料-测试集下载是测试集，训练集请见我的资源本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料，共9833篇文档；train_corpus.rar为训练语料，共9804篇文档，两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。
所属分类：算法与数据结构
- 发布日期：2019-04-25
- 文件大小：54525952
- 提供者：heshanhai

Python 含中文分词的多项式贝叶斯的增量学习的文本分类.rar
本源码中包括两个Python案例：1、基于潜在狄利克雷分配（LDA）模型的内容主题挖掘。2、基于多项式贝叶斯的增量学习的文本分类。依赖库：sys、re、tarfile、os、numpy、bs4、sklearn 　　程序输入：article.txt、news_data.tar.gz 　　程序输出：打印输出18个主题及新文本的预测主题归属　　程序实现功能：全角转半角、解析文件内容、从原始文件中解析出文本内容和标签数据、以列表形式返回文本中的所有内容和对应标签、交叉检验、将训练集文本数据转换为稀疏
所属分类：其它
- 发布日期：2019-07-10
- 文件大小：18874368
- 提供者：weixin_39840924

实训作业 (1).rar
三、项目思路 1. 爬取一定时间内的（如最近1个月的）前程无忧岗位数据（例如青岛所有岗位的url为：https://jobs.51job.com/qingdao-snq/），部分数据可以直接在搜索结果中获取，部分数据需要进入到岗位页面中获取。 2. 将爬取的数据保存为本地文本文件（若学生掌握数据库相关知识则可以保存在数据库中）。 3. 基于爬取的数据可以形成多种数据分析结果，例如：行业薪资、地区薪资、地区与行业分布关系、行业学历需求情况等。 4. “职位信息”字段可使用jieba分词库进行分
所属分类：机器学习
- 发布日期：2019-09-12
- 文件大小：7340032
- 提供者：weixin_44125861

文本分类训练集.rar
文本分类训练样本集，主要为新闻集，将近万余个样本，已完成标签分类，可用于文本分类模型训练，主要为源文本内容，下载后需要自行中文分词等预处理
所属分类：互联网
- 发布日期：2020-05-02
- 文件大小：98566144
- 提供者：shenxiaoming77

yelp13.rar
yelp13数据集附带用户、产品attention embedding 已经过处理，可直接使用embedding数据进行层次化lstm训练，可执行情感分类任务。通过层级化的LSTM获得文本embedding表示，通过注意力机制在不同语义层级引入用户信息和产品信息，根据词向量与句向量的语义关系对隐层节点初始权重进行赋值，最后将获得语义作为文本特征进行情感分类。
所属分类：深度学习
- 发布日期：2020-05-02
- 文件大小：44040192
- 提供者：u011748542

data.rar 安然公司邮件数据集（通过有道翻译）
通过有道翻译，翻译下来的邮件数据及（未完全翻译，不超过8000封邮件，邮件质量、长短不一，翻译得不通顺也没啥关系）。对应的csv文件（存储格式为序号、主题词、文本）。可以拿去自己贴上分类标签，设计、训练网络，完成邮件分类的任务。
所属分类：深度学习
- 发布日期：2020-04-21
- 文件大小：4194304
- 提供者：Wade__Hao

BayesProject.rar
1. 实验数据在bayes_datasets文件夹中。其中，  train为训练数据集，包含hotel和travel两个中文文本集，文本为txt格式。hotel文本集中全部都是介绍酒店信息的文档，travel文本集中全部都是介绍景点信息的文档；  Bayes_datasets/test为测试数据集，包含若干hotel类文档和travel类文档。 2. 用朴素贝叶斯算法对上述两类文档进行分类。要求输出测试数据集的文档分类结果，即每类文档的数量。
所属分类：机器学习
- 发布日期：2020-05-23
- 文件大小：607232
- 提供者：wszhou1997

复旦大学谭松波中文文本分类语料库.rar
复旦大学谭松波中文文本分类语料库中文文本分类语料（复旦大学）-训练集和测试集。测试语料共9833篇文档；训练语料共9804篇文档。
所属分类：机器学习
- 发布日期：2020-07-03
- 文件大小：52428800
- 提供者：qq_44238741

中文文本分类项目数据集.rar
“复旦大学计算机信息与技术国际数据库中心自然语言处理小组”提供的小样本中文文本分类语料，分为训练集和测试集两部分。内容真实有效
所属分类：机器学习
- 发布日期：2020-08-06
- 文件大小：3145728
- 提供者：qq_37077750