语音识别pipeline建设
语音识别技术经过三十几年的发展,识别率的提升使语言识别技术越来越贴近我们的生活。各大公司都在语音识别的产品和技术上大有投入。语音输入法成为IOS,Andriod,YunOS手机输入法是必不可少的按钮,智能助手如Siri,Google Now,Cortana,YunOS语音助手都把speech和NLP结合在一起作为智能助手的形式提供给大家。家庭娱乐如xbox,apple tv, 天猫魔盒语音的输入让人机交互更容易。 和其他机器学习一样,语音识别是一个science和engineer美妙结合的任务。Science推动语音识别基本技术的升级,engineer扩充语音识别的场景和语言。本节主要讨论在机器学习的engineering方面我们做了什么。 从语音识别内部的技术角度,大家已经逐渐的建立了以下的一些共识: 1.真实场景的数据是王道。机器学习需要教科书,真实数据是最好的教科书。 2.统计模型是state-of-the-art。 3.先HMM训练再DNN模型是标准模式。 所以语音识别最标准的玩法就是下面这个循环: 咱们先人工建立初始的数据库来build第一个模型。当然有市场的地方就有生意...