Self Attention
Attention机Decoder是输出元素和Encoder中的输入元素做attention,说的是翻译的结果和输入的哪些信息有关。 Self Attention则是Encoder中的信息自己对自己做attention,说的是自己这一句话内容之间的关系,比如The cat wants to cross the street,but it to tired。it指的是cat。
The cat wants to cross the street,but it to wi