机器翻译
主要特征:输出是单词序列而不是单个单词。 输出序列的长度可能与源序列的长度不同。
流程:
数据预处理
分词
建立词典
建立模型
Encoder-Decoder模型:
一种应用于seq2seq问题的模型,所谓编码,就是将输入序列转化成一个固定长度的向量;解码,就是将之前生成的固定向量再转化成输出序列。在具体实现的时候,编码器和解码器不是固定的,可选的有CNN/RNN/BiRNN/GRU/LSTM等等,可以自由组合。
缺点:
编码和解码之间的唯一联系就是一个固定长度的语义向量C。也就是说,