您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. [深度学习]动手学深度学习笔记-8

  2. Task4——注意力机制与Seq2seq模型 8.1 注意力机制 所谓的注意力机制,其实就是让系统学会注意力-即关注重点信息忽略无关信息。带有注意力机制的系统,不仅可以自主学习注意力,还可以帮助我们更好的理解神经网络。现在,在计算机视觉当中大多数都是通过掩码来生成注意力,掩码本质上是一组新的权重,可以帮助我们找到需要关注的信息。 目前主要演化出了两种注意力,一种是软注意力,其重点关注的是区域或通道,这种注意力是固定的,可微的;另一种是强注意力,其重点关注的是点,不可微,一般通过强化学习获得。
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:1048576
    • 提供者:weixin_38629130
  1. 《动手学深度学习》task4——机器翻译及相关技术;注意力机制与Seq2seq模型;Transformer笔记

  2. 系统学习《动手学深度学习》点击这里: 《动手学深度学习》task1_1 线性回归 《动手学深度学习》task1_2 Softmax与分类模型 《动手学深度学习》task1_3 多层感知机 《动手学深度学习》task2_1 文本预处理 《动手学深度学习》task2_2 语言模型 《动手学深度学习》task2_3 循环神经网络基础 《动手学深度学习》task3_1 过拟合、欠拟合及其解决方案 《动手学深度学习》task3_2 梯度消失、梯度爆炸 《动手学深度学习》task3_3 循环神经网络进阶 《
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:78848
    • 提供者:weixin_38687968
  1. 《动手学深度学习》pytorch版笔记2

  2. 《动手学深度学习》pytorch版笔记2 Task3 过拟合、欠拟合及其解决方案 这部分内容比较简单,写下问题吧,再挖几个坑 1.模型复杂度如何改变,三阶到一阶等 2.L2范数正则化为什么是权重衰减的一种方式? 梯度消失,梯度爆炸 1.初始化过程 2.标签偏移的概念 3.数据处理过程 循环神经网络进阶 GRU,LSTM中的门结构实现起来还挺复杂的,有空再自己实现一遍吧。另外深度循环神经网络貌似叫多层循环神经网络,印象中一般不会堆叠很多层,有空再研究一下吧 Task4 机器翻译及相关技术 机器翻
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:114688
    • 提供者:weixin_38686677
  1. 动手学深度学习Pytorch版本学习笔记 Task4

  2. 1.机器翻译及相关技术 机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。 主要特征:输出是单词序列而不是单个单词。 输出序列的长度可能与源序列的长度不同。 主要步骤: 1. 数据预处理 2.分词 3.建立词典 Sequence to Sequence模型: 2.注意力机制与Seq2seq模型 a.点注意力机制与多层感知机注意力机制 b.引入注意力机制的Seq2seq模型:将注意机制添加到sequence to sequence
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:199680
    • 提供者:weixin_38717896
  1. 伯禹学习平台:动手学深度学习3

  2. 学习笔记Task4,这部分没什么兴趣应该不会写有关自己的理解了,直接转过来了,虽然其他的也和转载的差不多。转自伯禹学习平台的动手学深度学习课程 机器翻译及相关技术 机器翻译和数据集 机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。 主要特征:输出是单词序列而不是单个单词。 输出序列的长度可能与源序列的长度不同。 Encoder-Decoder encoder:输入到隐藏状态 decoder:隐藏状态到输出 可以应用在对话系统、生
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:621568
    • 提供者:weixin_38682086
  1. 动手学深度学习 Task4 笔记

  2. 机器翻译及相关技术;注意力机制与Seq2seq模型;Transformer 2.15-2.19 一、机器翻译及相关技术 定义: 机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。 主要特征:输出是单词序列而不是单个单词。 输出序列的长度可能与源序列的长度不同。 数据预处理 分词 建立词典 载入数据集 二、注意力机制与Seq2seq模型 在“编码器—解码器(seq2seq)”⼀节⾥,解码器在各个时间步依赖相同的背景变量(context
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:62464
    • 提供者:weixin_38516040