kaldi 源码分析(七) - HCLG 分析
Kaldi 语音识别主流程:
解码网络使用 HCLG.fst 的方式, 它由 4 个 fst 经过一系列算法组合而成。分别是 H.fst、C.fst、L.fst 和 G.fst 4 个 fst 文件:
1. G:语言模型,输入输出类型相同,实际是一个WFSA(acceptor接受机),为了方便与其它三个WFST进行操作,将其视为一个输入输出相同的WFST。 2. L:发音词典,输入:monophone,输出:词; 3. C:上下文相关,输入:triphone(上下文相关),输出:monophnoe; 4. H:HMM声学模型,输入:HMM transitions-ids (对 pdf-id 和 其它信息编码后的 id),输出:triphone。
通过如下组合方式来计算最终输出结果:
HCLG = asl(min(rds(det(H' o min(det(C o min(det(Lo G))))))))
上面的o表示组合,det表示确定化,min表示最小化,rds表示去除消岐符号,asl表示增加自环。
其训练顺序为 G -> L -> C -> H (因 G 语法模型基于统计生成,L 则是在 G 生成过程中使用的基础,而 C 则是基于 L 生成的 phone 上下文关系依据决策树生成的结果)
解码过程中使用 Lattice 来保存识别的候选序列,通过遍历得到得分最靠前的多条候选路径,即 N-best,即为输出文本。Lattice 本质是一个有向无环图( directed acyclic graph )。 图上的每个节点代表一个词的结束时间点,每条边代表一个可能的词,以及该词发生的声学得分和语言模型得分。
参考
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
深度教练:让深度学习模拟人类教学过程,大幅减少训练数据和时间!
新智元专栏 作者:邓侃,复星集团AI首席科学家、大数医达创始人 编辑:闻菲 【新智元导读】DeepMind日前公开了他们首款医疗AI落地产品,能诊断50多种眼疾,精度超越人类医生。为了训练这个系统,DeepMind 用了近1.5万个人工标注的数据。尽管这项工作非常了不起,但从更广阔的视角看,从不会学习的电子计算机,到需要大数据才能“教会”的深度学习,有没有可能更进一步,实现像人类一样只需要小数据就能学习的方法?本文作者复星集团AI首席科学家、大数医达创始人邓侃博士认为,Deep Coaching 或许是一种可行之道。 DeepMind是Google旗下专注于人工智能研究的公司,DeepMind最出名的成就是AlphaGo系统,它战胜了当今世界所有围棋高手。 2018年8月13日,DeepMind一组研究员,在Nat
- 下一篇
人脸识别技术
人脸识别技术 (一) —— 基于CoreImage实现对静止图片中人脸的识别人脸识别技术 (二) —— 基于CoreImage实现视频中人脸的识别人脸识别技术 (三) —— 基于AVFoundation实现视频中人脸的识别
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- 设置Eclipse缩进为4个空格,增强代码规范
- CentOS8安装Docker,最新的服务器搭配容器使用
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS8编译安装MySQL8.0.19
- SpringBoot2整合Redis,开启缓存,提高访问速度
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Hadoop3单机部署,实现最简伪集群
- CentOS7,CentOS8安装Elasticsearch6.8.6