搜索资源 - 文本分类数据-数据集 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 文本分类数据-数据集

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

超实惠-复旦大学文本分类数据集（训练集+测试集）
网上很多复旦大学的文本分类数据集，但是训练和测试大多是分开的。我收集下载重新打包，以方便大家使用。仅需5个积分，是最便宜的了。
所属分类：机器学习
- 发布日期：2018-04-10
- 文件大小：108003328
- 提供者：lingpy

复旦文本分类语料数据集包含训练集和测试集和全集
复旦中文文本分类数据集，包含训练集和测试集，自然语言处理看论文看到数据堂的复旦中文文本分类语料无法下载，网上找到了训练集和测试集，4积分，良心价
所属分类：机器学习
- 发布日期：2018-07-12
- 文件大小：110100480
- 提供者：zhangzc12409

imdb、SST-1、SST-2、yelp-2013、yelp-2014 文本分类数据集
imdb、SST-1、SST-2、yelp-2013、yelp-2014 文本分类数据集 https://github.com/JerrikEph/Capsule4TextClassification/blob/master/data/downloadDataset.md
所属分类：深度学习
- 发布日期：2020-04-10
- 文件大小：306184192
- 提供者：guotong1988

大数据市场年度综合报告.pdf
大数据市场年度综合报告.pdf中国大数据市场年度综合报告2016 2016年8月易观发现国家大数据发展相关政策密集出台《促进大数据发展行动纲要》中指出,我国现代信息化进程中产生的和可被利用的海量数据集合, 是当代信息社会的数捱资源总和,是信息吋代的全数拆,既包括互联网数据,也包括政府数据和行业数据。经过多年发展,传统信息化对经济社会发展的支撑和引领作为无法充分发挥,迫切需要打破部门割据和行业壁垒,促进互联冮通、数据开放、信息共享和业务协同,切实以数据流引领技术流、物质流、资金沇、人才
所属分类：互联网
- 发布日期：2019-07-03
- 文件大小：9437184
- 提供者：qq_34543438

基于双向GRU和贝叶斯分类器的文本分类
基于BiGRU和贝叶斯分类器的文本分类，利用搜狐新闻数据集进行实现，对12个种类进行分类，里面设计BiGRUB提取文本特征，TF-IDF特征权重赋值，Bytes分类进行实现，学习深度学习和机器学习很好的借鉴。
所属分类：互联网
- 发布日期：2020-06-10
- 文件大小：105472
- 提供者：wws_2017

文本分类介绍，目前的文本分类模型，数据集和模型对应的代码链接，介绍文本分类的流程和发展史。给出多标签文本分类介绍和对应工具
文本分类介绍，目前的文本分类模型，数据集和模型对应的代码链接，介绍文本分类的流程和发展史。给出多标签文本分类介绍和对应工具
所属分类：机器学习
- 发布日期：2020-08-07
- 文件大小：2097152
- 提供者：xiaoqianlizhen

朴素贝叶斯文本分类数据集
朴素贝叶斯分类算法数据集文本挖掘（Text Mining，从文字中获取信息）是一个比较宽泛的概念，这一技术在如今每天都有海量文本数据生成的时代越来越受到关注。目前，在机器学习模型的帮助下，包括情绪分析，文件分类，话题分类，文本总结，机器翻译等在内的诸多文本挖掘应用都已经实现了自动化。　　在这些应用中，垃圾邮件过滤算是初学者实践文件分类的一个很不错的开始，例如 Gmail 账户里的“垃圾邮箱”就是一个垃圾邮件过滤的现实应用。下面我们将基于一份公开的邮件数据集 Ling-spam，编写一个垃圾
所属分类：其它
- 发布日期：2020-08-31
- 文件大小：17408
- 提供者：qq_45531594

复旦大学谭松波中文文本分类语料库 .rar
复旦大学谭松波中文文本分类语料库，资源免积分下载，仅供大家学习使用，这个数据集到底怎么用我也没试过。
所属分类：机器学习
- 发布日期：2020-11-03
- 文件大小：1048576
- 提供者：wangwenqing1991312

使用pytorch和torchtext进行文本分类的实例
文本分类是NLP领域的较为容易的入门问题，本文记录我自己在做文本分类任务以及复现相关论文时的基本流程，绝大部分操作都使用了torch和torchtext两个库。 1. 文本数据预处理首先数据存储在三个csv文件中，分别是train.csv，valid.csv，test.csv，第一列存储的是文本数据，例如情感分类问题经常是用户的评论review，例如imdb或者amazon数据集。第二列是情感极性polarity，N分类问题的话就有N个值，假设值得范围是0~N-1。下面是很常见的文本预处理流
所属分类：其它
- 发布日期：2020-12-23
- 文件大小：102400
- 提供者：weixin_38706603

新闻文本分类数据-数据集
新闻文本分类比赛的训练数据和测试数据
所属分类：其它
- 发布日期：2021-03-25
- 文件大小：309329920
- 提供者：weixin_38682086

Sentiment-Analysis:它是一种文本分类，可在IMDB大电影评论数据集上训练递归神经网络（RNN）以进行情感分析-源码
情感分析它是一种文本分类，可在IMDB大电影评论数据集上训练递归神经网络（RNN）以进行情感分析。
所属分类：其它
- 发布日期：2021-03-19
- 文件大小：5120
- 提供者：weixin_42165583

Text-classification:不使用现有的库使用朴素贝叶斯和感知机实现文本分类-源码
文字分类训练一个分类器（KNN，SVM），对文本数据进行分类，类别可包括体育，财经，房地产，家居，教育等十个类别。文本分类的一般流程可以分为五步：（1）对文本进行预处理，包括分词操作和替换词去除等；（2）特征提取与特征选择，选择文本特征提取方法，替代特征进行选择（3）文本表示，选择合适的方法表示选择的特征，作为分类的依据；（4）分类器构建，选择合适的分类算法训练得到对应的文本分类器；结果评估，选择合适的评估指标，对分类结果进行评价＃实验内容1.构建数据集2.数据预处理（分词，去除重置词）3
所属分类：其它
- 发布日期：2021-03-17
- 文件大小：2048
- 提供者：weixin_42099302

文本分类数据-数据集
新闻文本分类数据 NLP_data_list_0715.csv
所属分类：其它
- 发布日期：2021-03-06
- 文件大小：370
- 提供者：weixin_38656400

基于tensorflow、CNN、清华数据集THUCNews的新浪新闻文本分类-附件资源
基于tensorflow、CNN、清华数据集THUCNews的新浪新闻文本分类-附件资源
所属分类：互联网
- 发布日期：2021-03-05
- 文件大小：106
- 提供者：weixin_42200791

基于tensorflow、CNN、清华数据集THUCNews的新浪新闻文本分类-附件资源
基于tensorflow、CNN、清华数据集THUCNews的新浪新闻文本分类-附件资源
所属分类：互联网
- 发布日期：2021-03-05
- 文件大小：106
- 提供者：weixin_42203424

基于tensorflow、CNN、清华数据集THUCNews的新浪新闻文本分类-附件资源
基于tensorflow、CNN、清华数据集THUCNews的新浪新闻文本分类-附件资源
所属分类：互联网
- 发布日期：2021-03-02
- 文件大小：23
- 提供者：weixin_42203424

基于Kaggle数据的词袋模型文本分类教程
摘要：本教程展示了改善文本分类的方法，包括：做一个验证集，为AUC预测概率，用线性模型代替随机森林，使用TF-IDF权衡词汇，留下停用词，加上二元模型或者三元模型等。有一个Kaggle的训练比赛，你可以尝试进行文本分类，特别是电影评论。没有其他的数据——这是使用文本分类做一些实验的绝佳机会。Kaggle有一个关于本次比赛的tutorial，它会带你走进流行的词袋方法以及word2vec。本教程几乎代表了最佳实践，最有可能让参赛选手的优化变得很容易。而这正是我们要做的。验证是机器学习的基石。这是因
所属分类：其它
- 发布日期：2021-02-26
- 文件大小：176128
- 提供者：weixin_38601103

不均衡数据集上文本分类的特征选择研究
不均衡数据集上文本分类的特征选择研究
所属分类：其它
- 发布日期：2021-02-20
- 文件大小：354304
- 提供者：weixin_38742656

文本分类：使用scikit-learn进行文本分类。分类BBC文章-源码
文字分类使用scikit-learn将BBC文章分类为几类这个怎么运作有两个数据集。带有12.267个数据点的train_set.csv和带有3.068数据点的test_set.csv。训练集每篇文章包含5列。 ID，标题，内容，类别（政治，电影，足球，商业，技术）和RowNum。我们的目标是找到针对该特定训练集的最佳分类器，然后使用它对测试集的文章进行分类。首先，您可以通过运行wordcloud.py模块为每个类别生成一个词云来深入了解数据集。然后，下一步是使用TFIDF
所属分类：其它
- 发布日期：2021-02-04
- 文件大小：5242880
- 提供者：weixin_42140625

TextClassification：基于scikit-learn实现对新浪新闻的文本分类，数据集为100w篇文档，总计10类，测试集与训练集1：1划分。分类算法采用SVM和Bayes，其中Bayes作为基线-源码
新浪新闻文本分类语料库重建本项目的语料来源新浪新闻网，通过spider.py爬虫模块获得全部语料，总计获得10类新闻文本，每一类新闻文本有10条。采纳新浪新闻网的一个api获取新闻文本，api的url为使用进度池并发执行爬虫，加快抓取速度。数据预处理本项目的数据预处理包括：分词处理，去噪，向量化，由stopwords.py模块，text2term.py模块，vectorizer.py模块实现。本项目借助第三方库解霸完成文本的分词处理。通过停用词表移除中文停用词，通过正则表达式消除
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：100352
- 提供者：weixin_42128270

« 12 3 4 5 6 7 8 9 10 ... 32 »