您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. L1-L12.rar

  2. 2020 年参加伯禹教育pytorch培训资料 包括L12 Transformer.L11注意力机制和Seq2seq模型L10机器翻译L9循环神经网络进阶 L8梯度消失、梯度爆炸L7过拟合欠拟合及其解决方案L6循环神经网络L5语言模型与数据集L4文本预处理L3Softmax与分类模型L2多层感知机L1 线性回归 博文https://blog.csdn.net/xiuyu1860L1到L11所有jupyter noteobok 文件下载
  3. 所属分类:深度学习

    • 发布日期:2020-02-15
    • 文件大小:107520
    • 提供者:xiuyu1860
  1. 过拟合、欠拟合、梯度消失与梯度爆炸-Task3

  2. 1. 过拟合、欠拟合及其解决方案 本节主要讲了3个点,1. 过拟合、欠拟合的概念 2. 权重衰减 3. 丢弃法 其中权重衰减只讲了L2正则化,其实还有L1正则化、L12正则化等。 丢弃法其实就是Dropout,只是翻译成了中文。 Inverted-Dropout Inverted-Dropout是实现 dropout 的方法。假设对第i层进i行 dropout: p = 0.8 di = np.random.rand(ai.shape[0], ai.shape[1]) < p ai = n
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:49152
    • 提供者:weixin_38686677
  1. 欠拟合和过拟合&&梯度消失和梯度爆炸&&循环神经网络进阶

  2. 一.欠拟合和过拟合 1.1训练误差与泛化误差 在解释上述现象之前,我们需要区分训练误差(training error)和泛化误差(generalization error)。通俗来讲,前者指模型在训练数据集上表现出的误差,后者指模型在任意一个测试数据样本上表现出的误差的期望,并常常通过测试数据集上的误差来近似。 1.2 模型选择 1.2.1 验证数据集 从严格意义上讲,测试集只能在所有超参数和模型参数选定后使用一次。不可以使用测试数据选择模型,如调参。由于无法从训练误差估计泛化误差,因此也不应只
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:332800
    • 提供者:weixin_38688097
  1. 《动手学深度学习》task4——机器翻译及相关技术;注意力机制与Seq2seq模型;Transformer笔记

  2. 系统学习《动手学深度学习》点击这里: 《动手学深度学习》task1_1 线性回归 《动手学深度学习》task1_2 Softmax与分类模型 《动手学深度学习》task1_3 多层感知机 《动手学深度学习》task2_1 文本预处理 《动手学深度学习》task2_2 语言模型 《动手学深度学习》task2_3 循环神经网络基础 《动手学深度学习》task3_1 过拟合、欠拟合及其解决方案 《动手学深度学习》task3_2 梯度消失、梯度爆炸 《动手学深度学习》task3_3 循环神经网络进阶 《
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:78848
    • 提供者:weixin_38687968
  1. 伯禹AI – task03 过拟合、欠拟合及其解决方案 -梯度消失与爆炸、循环神经网络进阶

  2. 在介绍以上概念之前要理解 训练集、测试集与验证集的区分:     从严格意义上讲,测试集只能在所有超参数和模型参数选定后使用一次。不可以使用测试数据选择模型,如调参。由于无法从训练误差估计泛化误差,因此也不应只依赖训练数据选择模型。鉴于此,我们可以预留一部分在训练数据集和测试数据集以外的数据来进行模型选择。这部分数据被称为验证数据集,简称验证集(validation set)。例如,我们可以从给定的训练集中随机选取一小部分作为验证集,而将剩余部分作为真正的训练集。     训练误差(traini
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:260096
    • 提供者:weixin_38608189
  1. 动手学深度学习——task3过拟合、欠拟合以及解决方案、梯度消失和梯度爆炸

  2. 过拟合和欠拟合的概念 过拟合:模型训练误差远小于在测试数据集上的误差,也就是说数据在训练时模型的预测效果好,但是在测试的数据上(要预测的新数据)不能很好的进行预测。 欠拟合:模型无法得到较低的训练误差,也就是说,在训练数据的过程中,就不能很好的对数据进行预测。 主要因素模型复杂度和训练数据集大小 模型复杂度 为了解释模型复杂,以简单多项式函数拟合为例。给定一个由标量数据特征 x 和对应的标量标签 y 组成的训练数据集,多项式函数拟合的目标是找一个 K 阶多项式函数来近似 y 。 在上式中,
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:136192
    • 提供者:weixin_38538021
  1. 过拟合欠拟合及其解决方案;梯度消失梯度爆炸;循环神经网络进阶;机器翻译及相关技术;注意力机制与Seq2seq模型;Transformer;卷积神经网络基础;leNet;卷积神经网络进阶

  2. 1.过拟合欠拟合及其解决方案 一类是模型无法得到较低的训练误差,我们将这一现象称作欠拟合(underfitting)。 模型的训练误差远小于它在测试数据集上的误差,我们称该现象为过拟合(overfitting)。 在实践中,我们要尽可能同时应对欠拟合和过拟合。 2.梯度消失梯度爆炸 深度模型有关数值稳定性的典型问题是消失(vanishing)和爆炸(explosion)。 假设一个层数为LLL的多层感知机的第lll层H(l)\boldsymbol{H}^{(l)}H(l)的权重参数为W(l)\b
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:488448
    • 提供者:weixin_38500117
  1. 动手学 task03 过拟合、欠拟合及其解决方案+梯度消失、梯度爆炸+循环神经网络进阶

  2. 过拟合、欠拟合及其解决方案 过拟合和欠拟合 一类是模型无法得到较低的训练误差,我们将这一现象称作欠拟合(underfitting); 另一类是模型的训练误差远小于它在测试数据集上的误差,我们称该现象为过拟合(overfitting)。 在实践中,我们要尽可能同时应对欠拟合和过拟合。虽然有很多因素可能导致这两种拟合问题,在这里我们重点讨论两个因素:模型复杂度和训练数据集大小。 模型复杂度与过拟合、欠拟合的关系如下图: 训练数据集大小: 影响欠拟合和过拟合的另一个重要因素是训练数据集的大小。一般来
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:51200
    • 提供者:weixin_38749305
  1. [深度学习]动手学深度学习笔记-5

  2. Task2——梯度消失、梯度爆炸 5.1 梯度消失与梯度爆炸的概念 深度神经网络训练的时候,采用的是反向传播方式,该方式使用链式求导,计算每层梯度的时候会涉及一些连乘操作,因此如果网络过深。 那么如果连乘的因子大部分小于1,最后乘积的结果可能趋于0,也就是梯度消失,后面的网络层的参数不发生变化. 那么如果连乘的因子大部分大于1,最后乘积可能趋于无穷,这就是梯度爆炸。 5.2 梯度消失与梯度爆炸的后果 梯度消失会导致我们的神经网络中前面层的网络权重无法得到更新,也就停止了学习。 梯度爆炸会使得学
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:627712
    • 提供者:weixin_38516658
  1. 梯度消失与梯度爆炸

  2. 什么是梯度消失与梯度爆炸 层数比较多的神经网络模型在使用梯度下降法对误差进行反向传播时会出现梯度消失和梯度爆炸问题。梯度消失问题和梯度爆炸问题一般会随着网络层数的增加变得越来越明显。 例如,对于图所示的含有3个隐藏层的神经网络,梯度消失问题发生时,靠近输出层的hidden layer 3的权值更新相对正常,但是靠近输入层的hidden layer1的权值更新会变得很慢,导致靠近输入层的隐藏层权值几乎不变,扔接近于初始化的权值。这就导致hidden layer 1 相当于只是一个映射层,对所有的
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:304128
    • 提供者:weixin_38621082
  1. 伯禹学习平台《动手学》——梯度消失与梯度爆炸

  2. 梯度的消失与爆炸 深度模型有关数值稳定性的典型问题是消失(vanishing)和爆炸(explosion)。当神经网络的层数较多时,模型的数值稳定性容易变差。 假设一个层数为的多层感知机的第k层的权重参数为W(k),输出层m层的权重参数为W(m)。为了便于讨论,不考虑偏差参数,且设所有隐藏层的激活函数为恒等映射。给定输入X,多层感知机的第k层的输出H(k)=XW(1)W(2)…W(k)。此时,如果层数较大,H(k)的计算可能会出现衰减或爆炸。举个例子,假设输入和所有层的权重参数都是标量,如权重参
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:59392
    • 提供者:weixin_38691006
  1. Task03:过拟合、欠拟合及梯度爆炸与梯度消失

  2. K折交叉验证 由于验证数据集不参与模型训练,当训练数据不够用时,预留大量的验证数据显得太奢侈。一种改善的方法是K折交叉验证(K-fold cross-validation)。在K折交叉验证中,我们把原始训练数据集分割成K个不重合的子数据集,然后我们做K次模型训练和验证。每一次,我们使用一个子数据集验证模型,并使用其他K-1个子数据集来训练模型。在这K次训练和验证中,每次用来验证模型的子数据集都不同。最后,我们对这K次训练误差和验证误差分别求平均。 过拟合和欠拟合 模型训练中经常出现的两类典型问题
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:49152
    • 提供者:weixin_38706603
  1. 过拟合、欠拟合 & 梯度消失、梯度爆炸 & 循环神经网络进阶

  2. 过拟合、欠拟合 过拟合、欠拟合的概念 权重衰减 丢弃法 训练误差与泛化误差 训练误差(training error)和泛化误差(generalization error)。通俗来讲,前者指模型在训练数据集上表现出的误差,后者指模型在任意一个测试数据样本上表现出的误差的期望,并常常通过测试数据集上的误差来近似。 模型选择 min⁡θ1N∑i=1NL(yi,fθ(xi))+λ∣∣θ∣∣2\min_{\theta}\frac{1}{N}\sum_{i=1}^{N}L(y_i,f_{\theta}(x_
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:130048
    • 提供者:weixin_38544152
  1. indrnn:独立循环神经网络的TensorFlow实现-源码

  2. 独立递归神经网络 简单TensorFlow实现 Shuai Li等人 。 作者在Theano和Lasagne中的原始实现可在找到。 概要 在IndRNN中,循环层中的神经元彼此独立。 基本的RNN用h = act(W * input + U * state + b)计算隐藏状态h 。 IndRNN使用逐元素向量乘法u * state这意味着每个神经元都具有与其最后一个隐藏状态相关的单个递归权重。 IndRNN 可以有效地与ReLU激活功能一起使用,从而更容易堆叠多个递归层而不会使梯度饱和 允
  3. 所属分类:其它

    • 发布日期:2021-02-06
    • 文件大小:326656
    • 提供者:weixin_42110362
  1. 《动手学深度学习》task3——过拟合、欠拟合及解决方案,梯度消失、梯度爆炸,循环神经网络进阶笔记

  2. 系统学习《动手学深度学习》点击这里: 《动手学深度学习》task1_1 线性回归 《动手学深度学习》task1_2 Softmax与分类模型 《动手学深度学习》task1_3 多层感知机 《动手学深度学习》task2_1 文本预处理 《动手学深度学习》task2_2 语言模型 《动手学深度学习》task2_3 循环神经网络基础 《动手学深度学习》task3_1 过拟合、欠拟合及其解决方案 《动手学深度学习》task3_2 梯度消失、梯度爆炸 《动手学深度学习》task3_3 循环神经网络进阶 《
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:194560
    • 提供者:weixin_38584058
  1. 《动手学深度学习》——笔记2

  2. 第二次打卡内容 Task1 过拟合欠拟合,梯度消失,爆炸,LSTM,GRU Tsak2 机器翻译,Seq2Seq, Transformer Task3 卷积神经网络基础和进阶,leNet 过拟合与欠拟合 过拟合:泛化误差高于训练误差,原因是模型过于复杂或者训练数据集比较小。当模型过于复杂时,可以简化模型参数或者加入L2正则化对参数进行惩罚,也可以采用丢弃法泛化误差不会随着训练数据集里的样本数量增加儿增大,所以通常选择大一些的训练数据集。 欠拟合:无法得到较低的训练误差。原因是训练数据集不够或者模
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:364544
    • 提供者:weixin_38537689
  1. 深度学习基础3——过拟合欠拟合、梯度消失与梯度爆炸、常见循环神经网络

  2. 深度学习基础3 文章目录深度学习基础3一、过拟合欠拟合1.概念2.解决过拟合欠拟合的方法(1)权重缩减(2)丢弃法二、梯度消失与梯度爆炸1.消失与爆炸2.随机初始化3.影响模型效果的其他因素三、循环神经网络进阶1.门控循环神经网络/门控循环单元(GRU)2.LSTM:长短期记忆3.深度循环神经网络(Deep RNN)4.双向循环神经网络(BRNN)   一、过拟合欠拟合 1.概念 欠拟合:训练误差(训练集的损失函数的值)较大。 过拟合:训练误差远远小于泛化误差(任意测试样本误差的期望)。 验证集
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:312320
    • 提供者:weixin_38606639
  1. DataWhale 深度学习 第二次打卡

  2. 第二次打卡学习笔记 1.过拟合欠拟合及其解决方案 2.梯度消失与梯度爆炸 3.循环神经网络进阶 4.机器翻译及相关技术 5.注意力机制与Seq2seq模型 6.Transfomer 7.卷积神经网络基础 8.LeNet 9.卷积神经网络进阶 过拟合欠拟合及其解决方案 在解释过拟合和欠拟合现象之前,我们需要区分训练误差(training error)和泛化误差(generalization error)。通俗来讲,前者指模型在训练数据集上表现出的误差,后者指模型在任意一个测试数据样本上表现出的误差
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:2097152
    • 提供者:weixin_38544781
  1. 梯度消失与爆炸

  2. 梯度消失问题的解决方法 梯度消失问题 Sigmoid函数 梯度范围可能变得越来越小 在反向传播超过5层后,梯度可能会消失 激活函数 ReLU函数(rectified linear unit) 导数: ReLU可被近似为softplut函数 x增加时ReLU的梯度不会消失,可以用来对正值输入进行建模,由于无需计算指数函数所以它的计算速度很快,使用它可以不再需要“预训练”过程。 ResNet:深度残差网络 训练深度网络的困难性: 有时,即使是在训练数据上更深层的网络性能也可能比较浅层
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:603136
    • 提供者:weixin_38614377
  1. 过拟合与欠拟合、梯度消失与爆炸、RNN进阶

  2. 过拟合与欠拟合 专业名词解释: 泛化误差(generalization error):指模型在任意一个测试数据样本上表现出来的误差的期望,我们通常用测试集上的误差来近似看待. 验证集(validation set):预留一部分训练数据集出来用于验证和看模型的表现结果,并用来进行模型选择 K折交叉验证(K-fold cross-validation):针对训练数据不够用时的一种改善方法。把原始训练数据集分割成不重合的K份子数据集,然后做K次的训练和验证,最后对这K次的训练误差和验证误差分别求平均
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:321536
    • 提供者:weixin_38717171
« 12 3 »