搜索资源 - 中文预训练数据集-数据集 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 中文预训练数据集-数据集

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

sklearn0.19中文文档
sklearn0.19中文文档 PDF格式高清。 .1. 广义线性模型 1.1.1. 普通最小二乘法 1.1.1.1. 普通最小二乘法复杂度 1.1.2. 岭回归 1.1.2.1. 岭回归的复杂度 1.1.2.2. 设置正则化参数：广义交叉验证 1.1.3. Lasso 1.1.3.1. 设置正则化参数 1.1.3.1.1. 使用交叉验证 1.1.3.1.2. 基于信息标准的模型选择 1.1.3.1.3. 与 SVM 的正则化参数的比较 1.1.4. 多任务 Lasso 1.1.5. 弹性网络
所属分类：机器学习
- 发布日期：2018-10-30
- 文件大小：14680064
- 提供者：hardpen2013

Python 含中文分词的多项式贝叶斯的增量学习的文本分类.rar
本源码中包括两个Python案例：1、基于潜在狄利克雷分配（LDA）模型的内容主题挖掘。2、基于多项式贝叶斯的增量学习的文本分类。依赖库：sys、re、tarfile、os、numpy、bs4、sklearn 　　程序输入：article.txt、news_data.tar.gz 　　程序输出：打印输出18个主题及新文本的预测主题归属　　程序实现功能：全角转半角、解析文件内容、从原始文件中解析出文本内容和标签数据、以列表形式返回文本中的所有内容和对应标签、交叉检验、将训练集文本数据转换为稀疏
所属分类：其它
- 发布日期：2019-07-10
- 文件大小：18874368
- 提供者：weixin_39840924

Keras中文文档.pdf
Keras官方文档PDF版，带书签，一共307页，完整版，目前最好的版本！欢迎下载！model train on batch(x batch, y batch) 只需一行代码就能评估模型性能: loss and metrics modelevaluate(x test, y test, batch size=128) 或者对新的数据生成预测: classes =model predictx test, batch size=128) 构建一个问答系统,一个图像分类模型,一个神经图灵机,或者其他的
所属分类：深度学习
- 发布日期：2019-09-03
- 文件大小：12582912
- 提供者：dzgybd

WEKA中文详细教程.pdf
本文档是Weka的中文版详细教程。Weka的全名是怀卡托智能分析环境（Waikato Environment for Knowledge Analysis），是一款免费的，非商业化（与之对应的是SPSS公司商业数据挖掘产品--Clementine ）的，基于JAVA环境下开源的机器学习（machine learning）以及数据挖掘（data mining）软件。这是一个性价比最高的轻量级大数据分析必学软件，它和它的源代码可在其官方网站下载。IEF WEKA软件 C]Weka GUI Choos
所属分类：数据库
- 发布日期：2019-08-03
- 文件大小：44040192
- 提供者：byygxs015

情感分类ppt汇报.pptx
中文情感分析是自然语言处理的一个经典实验，这个实验通过一般通过各种训练好的数据集，对其中的数据进行预处理后采用各种网络模型进行学习和训练最终得到一个良好的loss和acuary之后，把模型保存下来，并输入一句话运行输出这句话的情感是正面还是负面的，最终输出的训练效果和使用的模型、数据集以及训练次数都有关系。这是做的情感分析ppt
所属分类：深度学习
- 发布日期：2020-07-03
- 文件大小：2097152
- 提供者：ZhangLH66

qinggan.zip
中文情感分析是自然语言处理的一个经典实验，这个实验通过一般通过各种训练好的数据集，对其中的数据进行预处理后采用各种网络模型进行学习和训练最终得到一个良好的loss和acuary之后，把模型保存下来，并输入一句话运行输出这句话的情感是正面还是负面的，最终输出的训练效果和使用的模型、数据集以及训练次数都有关系。
所属分类：深度学习
- 发布日期：2020-07-03
- 文件大小：112197632
- 提供者：ZhangLH66

2016年新闻中文文本.txt
包含了250万篇新闻。新闻来源涵盖了6.3万个媒体，含标题、关键词、描述、正文。数据集划分：数据去重并分成三个部分。训练集：243万；验证集：7.7万；测试集，数万，不提供下载。可能的用途：可以做为【通用中文语料】，训练【词向量】或做为【预训练】的语料；也可以用于训练【标题生成】模型，或训练【关键词生成】模型（选关键词内容不同于标题的数据）；亦可以通过新闻渠道区分出新闻的类型。
所属分类：互联网
- 发布日期：2020-07-30
- 文件大小：1024
- 提供者：SuperBoy_Liang

基于Sword2vect的中文在线商品评价情感分析
商品的在线评论情感分析已经成为一个热门的研究话题。为了更好地解决情感分析中词语的上下文信息和词语的情感信息缺失问题，提出了一种基于句子情感得分加权句向量的 Sword2vect情感分析方法，对中文在线评价进行情感分析。首先用基于词典的方法计算出评论句子的情感得分并对其进行预处理保证所有正向评论句子的情感得分为正，负向评论情感得分为负，用word2vect算法得到含有上下文信息评论的句子向量，然后用情感得分对句子向量进行加权得到情感句向量Sword2vect ，用支持向量机算法对训练数据集
所属分类：其它
- 发布日期：2020-07-25
- 文件大小：1048576
- 提供者：weixin_38548507

NLP中文预训练模型泛化能力挑战赛-数据集
NLP中文预训练模型泛化能力挑战赛数据集 OCNLI_a.csv OCEMOTION_a.csv OCEMOTION_train.csv OCNLI_train.csv TNEWS_a.csv TNEWS_train.csv
所属分类：其它
- 发布日期：2021-03-19
- 文件大小：5242880
- 提供者：weixin_38735887

中文预训练数据集-数据集
天池大数据“中文预训练模型”大赛数据集 OCNLI_a.csv TNEWS_a.csv OCEMOTION_a.csv OCEMOTION_train1128.csv OCNLI_train1128.csv TNEWS_train1128.csv
所属分类：其它
- 发布日期：2021-03-19
- 文件大小：6291456
- 提供者：weixin_38742460

DeepNER:天池中药说明书实体识别挑战冠军方案；中文命名实体识别； NER; BERT-CRF＆BERT-SPAN＆BERT-MRC； Pytorch-源码
中文-DeepNER-Pytorch 天池中药说明书实体识别挑战冠军方案开源贡献者： zxx飞翔的鱼： : 我是蛋糕王： : 数青峰： : 后续官方开放数据集后DeepNER项目会进行优化升级，包含完整的数据处理，训练，验证，测试，部署流程，提供详细的代码注释，模型介绍，实验结果，提供更普适的基础预训练的中文命名实体识别方案，开箱即用，欢迎星级！（代码框架基于火炬和变压器，框架进行性，解耦性，易读性较高，很容易修改迁移至其他NLP任务中）环境 python3 . 7 p
所属分类：其它
- 发布日期：2021-03-18
- 文件大小：3145728
- 提供者：weixin_42116805

WuDaoCorpus:先前全球最大的中文语料库-源码
五道集团 2020年10月，北京智源人工智能研究院（以下简称“智源研究院”）组织发起攻关团队，启动超大规模预训练模型研发项目“悟道”，逐步引入大型模型领域自主研发的空白。作为“悟道”项目的支撑，智源研究院联合清华大学，搜狗，中国人民大学，360等发布的版本最大。数据集申请下载链接
所属分类：其它
- 发布日期：2021-03-10
- 文件大小：2048
- 提供者：weixin_42144201

汉语单词向量：100多个汉语单词向量上百种预训练中文词向量-源码
中文单词向量该项目提供了100多个中文单词向量（嵌入），它们经过不同的表示（密集和稀疏），上下文特征（单词，ngram，字符等）和语料库训练。可以轻松获得具有不同属性的预训练向量，并将其用于下游任务。此外，我们提供了一个中文类比推理数据集CA8和一个评估工具包，供用户评估其词向量的质量。参考如果使用这些嵌入和CA8数据集，请引用该论文。沉力，赵哲，胡仁芬，李文思，刘涛，杜小勇，，ACL 2018。 InProceedings{P18-2023, author = "L
所属分类：其它
- 发布日期：2021-02-19
- 文件大小：355328
- 提供者：weixin_42166626

ChineseNER：中文命名实体识别，实体抽取，tensorflow，pytorch，BiLSTM + CRF-源码
中文NER 本项目使用 python 2.7 张量流1.7.0 火炬0.4.0 对命名实体识别不了解的可以先看一下这篇。顺便求star〜这是最简单的一个命名实体识别BiLSTM + CRF模型。数据数据文件夹中有三个开源数据集可以使用，玻森数据（），1998年人民日报标注数据，MSRA微软亚洲研究院开源数据。其中，boson数据集有6种实体类型，人民日报语料和MSRA一般只提取人名，地名，组织名三种实体类型。先运行数据中的python文件处理数据，供模型使用。张量流版开始训练
所属分类：其它
- 发布日期：2021-02-06
- 文件大小：13631488
- 提供者：weixin_42107491

albert_zh：用于自我监督学习语言表示的精简BERT，海量中文预训练ALBERT模型-源码
albert_zh 使用TensorFlow实现的实现 ALBert基于Bert，但有一些改进。它以30％的参数减少，可在主要基准上达到最先进的性能。对于albert_base_zh，它只有十个百分比参数与原始bert模型进行比较，并且保留了主要精度。现在已经提供了针对中文的ALBERT预训练模型的不同版本，包括TensorFlow，PyTorch和Keras。海量中文语料上预训练ALBERT模型：参数充分，效果更好。预训练小模型也能拿下13项NLP任务，ALBERT三大改造登顶G
所属分类：其它
- 发布日期：2021-02-06
- 文件大小：992256
- 提供者：weixin_42176827

CLUE：中文语言理解基准测评中文语言理解评估基准：数据集，基线，预训练模型，语料库和页首横幅-源码
CLUE基准数据集，基线，预训练模型，语料库和页首横幅中文语言理解测评基准，包括预期的数据集，基准（预训练）模型，语料库，排行榜。我们会选择一系列有一定预期的任务对应的数据集，做为我们测试基准的数据集。这些数据集会覆盖不同的任务，数据量，任务缺陷。更新：中文任务测评基准（CLUE基准）-排行榜排行榜会定期更新数据来源：分类任务（v1版本，正式版）模型得分参数空军质量管理委员会新闻 IFLYTEK' 中国移动通信网世界标准委员会 CSL 68.77 108M 73
所属分类：其它
- 发布日期：2021-02-06
- 文件大小：2097152
- 提供者：weixin_42136791

ERNIE：ERNIE的语言理解实现（包括预训练模型和微调工具）-源码
|简体中文 ERNIE是百度开创性提出的基于知识增强的持续学习语义理解框架，该框架将大数据预训练与多源丰富知识相结合，通过持续学习技术，不断吸收海量文本数据中文字句，结构，语义等方面ERNIE在情感分析，文本匹配，自然语言推理，词法分析，阅读理解，智能问答等16个公开数据集上全面显着超越世界领先技术，在国际权威的通用语言理解上评估基准GLUE上，突破首次突破90分，获得全球第一。在今年3月落下帷幕的全球最大语义评价。SemEval2020上，ERNIE摘得5项世界冠军，该技术也被全球顶级科技商
所属分类：其它
- 发布日期：2021-02-04
- 文件大小：2097152
- 提供者：weixin_42120541

pytorch_chinese_lm_pretrain：pytorch中文语言模型预训练-源码
基于pytorch的中文语言模型预训练 ACL2020最佳论文有一篇论文提名奖，《不要停止预训练：使语言模型适应领域和任务》。本文涉及很多语言模型预训练的实验，系统的分析了语言模型预训练对子任务的效果提升情况。有几个主要方面：在目标领域的数据集上继续预训练（DAPT）可以提高效果；目标领域的语料与RoBERTa的原始预训练语料越不相关，DAPT效果则提升更明显。在具体任务的数据集上继续预训练（TAPT）可以十分“廉价”地提升效果。结合两者（先进行DAPT，再进行TAPT）可以进一步提升效果
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：29696
- 提供者：weixin_42101164

ChineseGLUE：中文语言理解评估基准：数据集，基线，预训练模型，语料库和页首横幅-源码
中国胶汉语语言理解评估基准：数据集，基线，预训练模型，语料库和排行榜中文语言理解测评基准，包括预期的数据集，基准（预训练）模型，语料库，排行榜。「更新，2019年11月22日」 1）【推荐】新版，更加系统全面，更好的技术支持，迁移新地址： : 2）初始经典版，以实用任务如分类或句子对任务为主，将继续保留并在此项目更新我们会选择一系列有一定预期的任务对应的数据集，做为我们测试基准的数据集。这些数据集会覆盖不同的任务，数据量，任务缺陷。中文任务基准测评（ChineseGLUE）-
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：2097152
- 提供者：weixin_42097189

TextClassification：基于scikit-learn实现对新浪新闻的文本分类，数据集为100w篇文档，总计10类，测试集与训练集1：1划分。分类算法采用SVM和Bayes，其中Bayes作为基线-源码
新浪新闻文本分类语料库重建本项目的语料来源新浪新闻网，通过spider.py爬虫模块获得全部语料，总计获得10类新闻文本，每一类新闻文本有10条。采纳新浪新闻网的一个api获取新闻文本，api的url为使用进度池并发执行爬虫，加快抓取速度。数据预处理本项目的数据预处理包括：分词处理，去噪，向量化，由stopwords.py模块，text2term.py模块，vectorizer.py模块实现。本项目借助第三方库解霸完成文本的分词处理。通过停用词表移除中文停用词，通过正则表达式消除
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：100352
- 提供者：weixin_42128270

« 12 »