预告:解读全新声学模型与算法:2016 年语音识别的重大进步丨硬创公开课
在去年的锤子发布会中,罗永浩现场演示了讯飞输入法后让用户意识到当下语音识别能力的强大。当然,语音识别在安静环境、常用字词、发音标准情况下已非常成熟,但在复杂环境下如远场识别、带噪声识别等情况下仍有一定的提升空间。
2016 年语音识别领域有着不小的进展,其主要体现在模型方面的突破:
Deep CNN 模型大热,百度把 Deep CNN 应用于语音识别声学建模中,将其与基于 LSTM 和 CTC 的端对端语音识别技术相结合,大大提升了语音识别能力;微软则是把 ResNet 应用于语音识别,在产业标准 Switchboard 语音识别基准测试中,实现了词错率(WER)低至 5.9% 的新突破;科大讯飞也推出了全新的深度全序列卷积神经网络 DFCNN。
与此同时,新的深度学习开源框架层出不穷,开发者做语音识别到底是用 Kaldi 这类传