语音识别(ASR)基础介绍第二篇——万金油特征MFCC
上一章提到了整个发声与拾音及存储的原理。但是在了解ASR的过程中,发现基本上遇到的资料都避不开MFCC特征。 整个ASR的处理流程大致可以分为下图: 左侧是经典的处理流程,右侧是近期流行的流程。发生的变化是,将语言模型以下的部分变成端到端的了。 我们将语言模型以下的部分统一看成是声学模型就好。 而MFCC主要用在左侧的处理流程中,即“特征处理”的输出结果。 虽然可以看成,端到端的声学模型出来后,我们已经不需要MFCC了,直接输入音频即可。 不过这并不意味着MFCC就没用了。 在“根据发音确认发音人身份”等许多领域,MFCC还是个很短平快切粗暴有效的特征。 由于MFCC的重要性,和asr相关专业的人士交流时,最好是能提前具备此共识。 MFCC 细节介绍: MFCC给人的感觉像是孟德尔遗传定律。在人们还并不确定人耳是如何解析声音的时候,假设了这是一个傅里叶变换后的频域处理过程。然后,最近的医学研究成果表明,人耳也确实大致是这么工作的,对应的器官名字叫耳蜗,或蜗牛。 MFCC虽然名字就4个字母,但其实是集成了很多很多的思考和假设在里面。 了解过之后,你就不会再后悔大学数学的卷积操作毛用都没有...
