kaldi 源码分析(七) - HCLG 分析

2018-08-16 1458

Kaldi 语音识别主流程：

语音识别过程

解码网络使用 HCLG.fst 的方式，它由 4 个 fst 经过一系列算法组合而成。分别是 H.fst、C.fst、L.fst 和 G.fst 4 个 fst 文件：

1. G：语言模型，输入输出类型相同，实际是一个WFSA（acceptor接受机），为了方便与其它三个WFST进行操作，将其视为一个输入输出相同的WFST。

2. L：发音词典，输入：monophone，输出：词;

3. C:上下文相关，输入：triphone（上下文相关），输出：monophnoe;

4. H:HMM声学模型，输入：HMM transitions-ids (对 pdf-id 和 其它信息编码后的 id)，输出：triphone。

通过如下组合方式来计算最终输出结果：

HCLG = asl(min(rds(det(H' o min(det(C o min(det(Lo G))))))))

上面的o表示组合，det表示确定化,min表示最小化，rds表示去除消岐符号，asl表示增加自环。

其训练顺序为 G -> L -> C -> H (因 G 语法模型基于统计生成，L 则是在 G 生成过程中使用的基础，而 C 则是基于 L 生成的 phone 上下文关系依据决策树生成的结果)

解码过程中使用 Lattice 来保存识别的候选序列，通过遍历得到得分最靠前的多条候选路径，即 N-best，即为输出文本。Lattice 本质是一个有向无环图( directed acyclic graph )。图上的每个节点代表一个词的结束时间点，每条边代表一个可能的词，以及该词发生的声学得分和语言模型得分。

参考

语音识别中的lattice与confusion network
kaldi lattice

微信关注我们

原文链接：https://yq.aliyun.com/articles/670003

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

深度教练：让深度学习模拟人类教学过程，大幅减少训练数据和时间！

新智元专栏作者：邓侃，复星集团AI首席科学家、大数医达创始人编辑：闻菲【新智元导读】DeepMind日前公开了他们首款医疗AI落地产品，能诊断50多种眼疾，精度超越人类医生。为了训练这个系统，DeepMind 用了近1.5万个人工标注的数据。尽管这项工作非常了不起，但从更广阔的视角看，从不会学习的电子计算机，到需要大数据才能“教会”的深度学习，有没有可能更进一步，实现像人类一样只需要小数据就能学习的方法？本文作者复星集团AI首席科学家、大数医达创始人邓侃博士认为，Deep Coaching 或许是一种可行之道。 DeepMind是Google旗下专注于人工智能研究的公司，DeepMind最出名的成就是AlphaGo系统，它战胜了当今世界所有围棋高手。 2018年8月13日，DeepMind一组研究员，在Nat

2018-08-16

749

人脸识别技术（一） —— 基于CoreImage实现对静止图片中人脸的识别人脸识别技术（二） —— 基于CoreImage实现视频中人脸的识别人脸识别技术（三） —— 基于AVFoundation实现视频中人脸的识别

2018-08-17

729

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

kaldi 源码分析(七) - HCLG 分析

参考

深度教练：让深度学习模拟人类教学过程，大幅减少训练数据和时间！

人脸识别技术

相关文章

发表评论

资源下载

Mario

Nacos

Spring

Sublime Text

欢迎您来访！