为了让机器听懂“长篇大论”,阿里工程师构建了新模型
小叽导读:本研究我们提出了一种改进的前馈序列记忆神经网络结构,称之为深层前馈序列记忆神经网络(DFSMN)。进一步地我们将深层前馈序列记忆神经网络和低帧率(LFR)技术相结合构建了LFR-DFSMN语音识别声学模型。该模型在大词汇量的英文识别和中文识别任务上都可以取得相比于目前最流行的基于长短时记忆单元的双向循环神经网络(BLSTM)的识别系统显著的性能提升。而且LFR-DFSMN在训练速度,模型参数量,解码速度,而且模型的延时上相比于BLSTM都具有明显的优势。
作者: 张仕良、雷鸣、鄢志杰、戴礼荣
收录于:ICASSP-2018
研究背景
近年来, 深度神经网络成为了大词汇量连续语音识别系统中的主流声学模型。由于语音信号具有很强的长时相关性,因而目前普遍流行的是使用具有长时相关建模的能力的循环神经网络(RNN),例如LSTM以及其变形
