《动手学——循环神经网络进阶》笔记
GRU
时间步数较大或者较小时,循环神经网络梯度较容易出现梯度衰减/梯度爆炸。
虽然裁剪梯度可以应对梯度爆炸,但没法解决梯度衰减问题。
所以提出⻔控循环神经⽹络GRU,来捕捉时间序列中时间步距离较⼤的依赖关系
RNN存在的问题:梯度较容易出现衰减或爆炸(BPTT)
⻔控循环神经⽹络:捕捉时间序列中时间步距离较⼤的依赖关系
RNN:
Ht=ϕ(XtWxh+Ht−1Whh+bh)
GRU:
Rt=σ(XtWxr+Ht−1Whr+br)
Zt=σ(XtWxz+Ht−