您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 复旦中文文本分类语料-训练集

  2. 由复旦大学李荣陆提供。answer.rar为测试语料,共9833篇文档;train.rar为训练语料,共9804篇文档,分为20个类别。训练语料和测试语料基本按照1:1的比例来划分。收集工作花费了不少人力和物力,所以请大家在使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。文件较大(训练测试各50多兆),下载时请耐心等待。
  3. 所属分类:数据库

    • 发布日期:2017-02-06
    • 文件大小:52428800
    • 提供者:github_36326955
  1. 中文文本分类语料(复旦)-训练集

  2. 这个链接是训练集,测试集请见我的资源 本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。文件较大(训练测试各50多兆),下载时请耐心等待。
  3. 所属分类:讲义

    • 发布日期:2017-02-06
    • 文件大小:52428800
    • 提供者:github_36326955
  1. 中文文本分类语料(复旦)-训练集

  2. 共50.38MB。本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。
  3. 所属分类:讲义

    • 发布日期:2017-03-02
    • 文件大小:52428800
    • 提供者:wangpei1949
  1. 中文文本分类语料(复旦)-训练集

  2. 这个链接是训练集,测试集请见我的资源 本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)
  3. 所属分类:其它

    • 发布日期:2017-07-07
    • 文件大小:52428800
    • 提供者:goodluckyue
  1. 中文文本分类训练集

  2. 中文样本语料训练集,给做语音信号处理的提供数据资源。该资料所有权属于复旦大学计算机信息与技术系国际数据库中心自然语言处理小组,如有使用请注明出处。
  3. 所属分类:机器学习

    • 发布日期:2017-11-30
    • 文件大小:52428800
    • 提供者:babylovejie
  1. 中文文本分类语料库适于小规模研究

  2. 最初在中文自然语言处理开放平台上获得,由复旦大学李荣陆博士收集整理
  3. 所属分类:专业指导

    • 发布日期:2009-03-20
    • 文件大小:3145728
    • 提供者:jingbei7375
  1. 复旦文本分类语料数据集 包含训练集和测试集和全集

  2. 复旦中文文本分类数据集,包含训练集和测试集,自然语言处理 看论文看到数据堂的复旦中文文本分类语料无法下载,网上找到了训练集和测试集,4积分,良心价
  3. 所属分类:机器学习

    • 发布日期:2018-07-12
    • 文件大小:110100480
    • 提供者:zhangzc12409
  1. 中文文本分类语料(复旦)(训练集+测试集)

  2. 中文文本分类语料(复旦)-训练集和测试集 这个链接是训练集,本语料库由复旦大学李荣陆提供。test_corpus为测试语料,共9833篇文档;train_corpus为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。文件较大,下载时请耐心等待。
  3. 所属分类:算法与数据结构

    • 发布日期:2019-01-10
    • 文件大小:12582912
    • 提供者:littlion
  1. 自然语言处理课程实验部分参考代码

  2. 自然语言处理实验。三个实验,包括nltk基本使用,最大匹配算法,文本分类。 第一个实验是了解一些语料库的使用和corpus接口,玩玩chatbots,srparser。 第二个实验是最大匹配算法实现中文分词。 第三个实验是根据搜狐语料,实现文本分类。
  3. 所属分类:机器学习

    • 发布日期:2019-04-14
    • 文件大小:35651584
    • 提供者:weixin_40371649
  1. Java中通过HanLP实现文本分词、提取关键词、聚类(工具资源+实例)

  2. HanLP是由一系列模型与算法组成的工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点;提供词法分析(中文分词、词性标注、命名实体识别)、句法分析、文本分类和情感分析等功能。
  3. 所属分类:Java

    • 发布日期:2019-05-20
    • 文件大小:35651584
    • 提供者:weixin_41900160
  1. java通过括特征选取、特征降维、分类模型学习三个步骤完成自动智能分类

  2. THUCTC(THU Chinese Text Classification)是由清华大学自然语言处理实验室推出的中文文本分类工具包,能够自动高效地实现用户自定义的文本分类语料的训练、评测、分类功能。文本分类通常包括特征选取、特征降维、分类模型学习三个步骤。如何选取合适的文本特征并进行降维,是中文文本分类的挑战性问题。我组根据多年在中文文本分类的研究经验,在THUCTC中选取二字串bigram作为特征单元,特征降维方法为Chi-square,权重计算方法为tfidf,分类模型使用的是LibSV
  3. 所属分类:Java

    • 发布日期:2019-05-20
    • 文件大小:801792
    • 提供者:weixin_41900160
  1. 复旦大学中文文本分类数据集

  2. 本语料库由复旦大学李荣陆提供。 train.zip共9804篇文档,test.zip共9832篇文档,都分为20个类别。 下载后可以自己重新切分数据,也可以直接用。 免费下载地址:链接:https://pan.baidu.com/s/1E2vUjyBtrlG0SBCkO-_IAQ 密码:dq9m 使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。
  3. 所属分类:机器学习

    • 发布日期:2019-07-17
    • 文件大小:111149056
    • 提供者:number59
  1. 复旦大学中文文本分类数据集utf8格式

  2. 本语料库由复旦大学李荣陆提供。 下载的原始数据编码格式是gb18030,用python解析时报错,这个是用java将数据格式转为utf-8编码格式后的结果。 train.zip共9804篇文档,test.zip共9832篇文档,都分为20个类别。 下载后可以自己重新切分数据,也可以直接用。 免费下载地址:链接:https://pan.baidu.com/s/1m0stk-0AovdbMNT5-CMdSA 密码:2bvz 使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小
  3. 所属分类:机器学习

    • 发布日期:2019-07-19
    • 文件大小:125829120
    • 提供者:number59
  1. 中文文本分类项目数据集.rar

  2. “复旦大学计算机信息与技术国际数据库中心自然语言处理小组”提供的小样本中文文本分类语料,分为训练集和测试集两部分。内容真实有效
  3. 所属分类:机器学习

    • 发布日期:2020-08-06
    • 文件大小:3145728
    • 提供者:qq_37077750
  1. 中文自然语言处理 文本分类语料

  2. 中文自然语言处理文本分类语料,共15个分类,类别包括财经、电竞、房产、国际、教育、军事、科技、旅游、民生、农业、汽车、体育、文化、娱乐、证券
  3. 所属分类:互联网

  1. 基于跨语言语料库的汉语和老挝语单词分布

  2. 单词表示是自然语言处理的基础研究内容。目前,单语言单词的分布式表示在一些神经概率语言(NPL)研究中显示出令人满意的应用效果,而对于跨语言单词的分布式表示,研究很少。在国内外。 针对这两种语言中名词和动词的分布相似性的问题,我们通过弱监督学习扩展法等方法将互译的单词,同义词,上位词嵌入中文语料库中,从而在跨语言环境中实现了老挝单词分布。学中文和老挝。 我们利用之前学习的跨语言单词的分布式表示来计算双语文本的相似度,并对汉语和老挝的混合文本语料库进行分类,实验结果表明该建议对这两个任务具有令人满意
  3. 所属分类:其它

    • 发布日期:2021-03-14
    • 文件大小:442368
    • 提供者:weixin_38719643
  1. text-classification-cn:中文文本分类实践,基于搜狗新闻语料库,采用传统机器学习方法以及预训练模型等方法-源码

  2. 文字分类 文本分类(文本分类)是自然语言处理中的一个重要应用技术,根据文档的内容或主题,自动识别文档所属的预先定义的类别标签。文本分类是很多应用场景的基础,某些垃圾邮件识别,舆情分析,情感识别,新闻自动分类,智能客服机器人的合并分类等等。此处分为两个部分: 第1部分:基于scikit学习机器学习的Python库,对比几个传统机器学习方法的文本分类 第2部分:基于预训练词向量模型,使用Keras工具进行文本分类,用到了CNN 本文语料:,密码:P9M4。更多新闻标注语料,。 预训练词向量模型来自
  3. 所属分类:其它

    • 发布日期:2021-02-04
    • 文件大小:212972
    • 提供者:weixin_42101237
  1. THUCTC:高效的中文文本分类器-源码

  2. THUCTC:一个高效的中文文本分类工具 目录 项目介绍 THUCTC(THU中文文本分类)是由清华大学自然语言处理实验室推出的中文文本分类工具包,能够自动高效地实现用户自定义的文本分类语料的训练,评估,分类功能。 ,特征降维,分类模型学习三个步骤。如何选择合适的文本特征并进行降维,是中文文本分类的挑战性问题。我组根据多年在中文文本分类的研究经验,在THUCTC中选取二字串bigram作为特征单元,特征降维方法为卡方,权重计算方法为tfidf,分类模型使用的是LibSVM或LibLinear。T
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:1048576
    • 提供者:weixin_42099942
  1. HanLP:中文分词词性标注命名实体识别依存句法分析语义依存分析新词发现用自动生成的摘要进行文本分类聚类拼音简繁转换自然语言处理-源码

  2. HanLP:汉语言处理 || || 面向生产环境的多语种自然语言处理工具包,基于PyTorch和TensorFlow 2.x双引擎,目标是普及落地最前沿的NLP技术。HanLP实现功能完善,性能高效,架构清晰,语料时新,可自定义的特点。 穿越世界上最大的多语言种语料库,HanLP2.1支持包括简繁中英日俄法德内部的104种语言上的10种联合任务:分词(粗分,细分2个标准,强制,合并,校正3种),词性标注(PKU,863,CTB,UD四套词性规范),命名实体识别(PKU,MSRA,OntoNot
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:775168
    • 提供者:weixin_42134054
  1. THUCTC: 一个高效的中文文本分类工具包-数据集

  2. THUCTC(THU Chinese Text Classification)是由清华大学自然语言处理实验室推出的中文文本分类工具包,能够自动高效地实现用户自定义的文本分类语料的训练、评测、分类功能。文本分类通常包括特征选取、特征降维、分类模型学习三个步骤。如何选取合适的文本特征并进行降维,是中文文本分类的挑战性问题。
  3. 所属分类:其它

    • 发布日期:2021-03-28
    • 文件大小:793772032
    • 提供者:weixin_38594266
« 12 »