您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 复旦中文文本分类语料-训练集

  2. 由复旦大学李荣陆提供。answer.rar为测试语料,共9833篇文档;train.rar为训练语料,共9804篇文档,分为20个类别。训练语料和测试语料基本按照1:1的比例来划分。收集工作花费了不少人力和物力,所以请大家在使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。文件较大(训练测试各50多兆),下载时请耐心等待。
  3. 所属分类:数据库

    • 发布日期:2017-02-06
    • 文件大小:52428800
    • 提供者:github_36326955
  1. 中文文本分类语料(复旦)-训练集

  2. 这个链接是训练集,测试集请见我的资源 本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。文件较大(训练测试各50多兆),下载时请耐心等待。
  3. 所属分类:讲义

    • 发布日期:2017-02-06
    • 文件大小:52428800
    • 提供者:github_36326955
  1. 中文文本分类语料(复旦)-训练集

  2. 共50.38MB。本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。
  3. 所属分类:讲义

    • 发布日期:2017-03-02
    • 文件大小:52428800
    • 提供者:wangpei1949
  1. 中文文本分类语料(复旦)-训练集

  2. 这个链接是训练集,测试集请见我的资源 本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)
  3. 所属分类:其它

    • 发布日期:2017-07-07
    • 文件大小:52428800
    • 提供者:goodluckyue
  1. 中文文本分类语料-测试集下载

  2. 中文文本分类语料-测试集下载 是测试集,训练集请见我的资源 本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。
  3. 所属分类:算法与数据结构

    • 发布日期:2019-04-25
    • 文件大小:54525952
    • 提供者:heshanhai
  1. Python 含中文分词的多项式贝叶斯的增量学习的文本分类.rar

  2. 本源码中包括两个Python案例:1、基于潜在狄利克雷分配(LDA)模型的内容主题挖掘。2、基于多项式贝叶斯的增量学习的文本分类。依赖库:sys、re、tarfile、os、numpy、bs4、sklearn   程序输入:article.txt、news_data.tar.gz   程序输出:打印输出18个主题及新文本的预测主题归属   程序实现功能:全角转半角、解析文件内容、从原始文件中解析出文本内容和标签数据、以列表形式返回文本中的所有内容和对应标签、交叉检验、将训练集文本数据转换为稀疏
  3. 所属分类:其它

    • 发布日期:2019-07-10
    • 文件大小:18874368
    • 提供者:weixin_39840924
  1. 实训作业 (1).rar

  2. 三、 项目思路 1. 爬取一定时间内的(如最近1个月的)前程无忧岗位数据(例如青岛所有岗位的url为:https://jobs.51job.com/qingdao-snq/),部分数据可以直接在搜索结果中获取,部分数据需要进入到岗位页面中获取。 2. 将爬取的数据保存为本地文本文件(若学生掌握数据库相关知识则可以保存在数据库中)。 3. 基于爬取的数据可以形成多种数据分析结果,例如:行业薪资、地区薪资、地区与行业分布关系、行业学历需求情况等。 4. “职位信息”字段可使用jieba分词库进行分
  3. 所属分类:机器学习

    • 发布日期:2019-09-12
    • 文件大小:7340032
    • 提供者:weixin_44125861
  1. 文本分类训练集.rar

  2. 文本分类训练样本集,主要为新闻集,将近万余个样本,已完成标签分类,可用于文本分类模型训练,主要为源文本内容,下载后需要自行中文分词等预处理
  3. 所属分类:互联网

    • 发布日期:2020-05-02
    • 文件大小:98566144
    • 提供者:shenxiaoming77
  1. yelp13.rar

  2. yelp13数据集 附带用户、产品attention embedding 已经过处理,可直接使用embedding数据进行层次化lstm训练,可执行情感分类任务。 通过层级化的LSTM获得文本embedding表示,通过注意力机制在不同语义层级引入用户信息和产品信息,根据词向量与句向量的语义关系对隐层节点初始权重进行赋值,最后将获得语义作为文本特征进行情感分类。
  3. 所属分类:深度学习

    • 发布日期:2020-05-02
    • 文件大小:44040192
    • 提供者:u011748542
  1. data.rar 安然公司邮件数据集(通过有道翻译)

  2. 通过有道翻译,翻译下来的邮件数据及(未完全翻译,不超过8000封邮件,邮件质量、长短不一,翻译得不通顺也没啥关系)。对应的csv文件(存储格式为 序号、主题词、文本)。可以拿去自己贴上分类标签,设计、训练网络,完成邮件分类的任务。
  3. 所属分类:深度学习

    • 发布日期:2020-04-21
    • 文件大小:4194304
    • 提供者:Wade__Hao
  1. BayesProject.rar

  2. 1. 实验数据在bayes_datasets文件夹中。其中,  train为训练数据集,包含hotel和travel两个中文文本集,文本为txt格式。hotel文本集中全部都是介绍酒店信息的文档,travel文本集中全部都是介绍景点信息的文档;  Bayes_datasets/test为测试数据集,包含若干hotel类文档和travel类文档。 2. 用朴素贝叶斯算法对上述两类文档进行分类。要求输出测试数据集的文档分类结果,即每类文档的数量。
  3. 所属分类:机器学习

    • 发布日期:2020-05-23
    • 文件大小:607232
    • 提供者:wszhou1997
  1. 复旦大学谭松波中文文本分类语料库.rar

  2. 复旦大学谭松波中文文本分类语料库 中文文本分类语料(复旦大学)-训练集和测试集。测试语料共9833篇文档;训练语料共9804篇文档。
  3. 所属分类:机器学习

    • 发布日期:2020-07-03
    • 文件大小:52428800
    • 提供者:qq_44238741
  1. 中文文本分类项目数据集.rar

  2. “复旦大学计算机信息与技术国际数据库中心自然语言处理小组”提供的小样本中文文本分类语料,分为训练集和测试集两部分。内容真实有效
  3. 所属分类:机器学习

    • 发布日期:2020-08-06
    • 文件大小:3145728
    • 提供者:qq_37077750