干货|语音识别框架最新进展——深度全序列卷积神经网络登场
导读:目前最好的语音识别系统采用双向长短时记忆网络(LSTM,LongShort Term Memory),但是,这一系统存在训练复杂度高、解码时延高的问题,尤其在工业界的实时识别系统中很难应用。科大讯飞在今年提出了一种全新的语音识别框架——深度全序列卷积神经网络(DFCNN,Deep Fully Convolutional NeuralNetwork),更适合工业应用。本文是对科大讯飞使用DFCNN应用于语音转写技术的详细解读,其外还包含了语音转写中口语化和篇章级语言模型处理、噪声和远场识别和文本处理实时纠错以及文字后处理等技术的分析。
人工智能的应用中,语音识别在今年来取得显著进步,不管是英文、中文或者其他语种,机器的语音识别准确率在不断上升。其中,语音听写技术的发展最为迅速,目前已广泛在语音输入、语音搜索、语音助手等产品中得到
