对抗训练的端到端韩语语音合成系统
李聚贤,崔亨锡,全昌彬,古政yun,李京九
首尔国立大学音乐与音频研究小组
INTERSPEECH 2019(最佳学生论文奖,口头报告)
抽象的
在本文中,我们提出了一种使用以下三种新颖方法从歌词和符号旋律开始的端到端韩国唱歌语音合成系统:1)语音增强掩蔽,2)文本和音高的局部调节到超分辨率网络,以及3)有条件的对抗训练。 拟议的系统由两个主要模块组成; mel合成网络根据给定的输入信息生成mel频谱图,超分辨率网络将生成的mel频谱图上采样为线性频谱图。 在m