使用RNN-Transducer的在线语音识别
使用RNN Transducer(Graves等人,2013年)对文本进行语音转换,并训练了2000多个小时的音频语音数据。
这项工作是与的联合合作
强调
首次展示RNN换能器(RNN-T)在线解码功能的回购
将RNN-T模型移植到ONNX和OpenVINO
针对具有顶点和数据并行的RNN-T的各种语音数据集进行大规模培训
使用此模型,我们可以在2.3GHz双核Intel Core i5处理器上在Youtube Live视频上运行在线语音识别,(比