初探语音识别ASR算法-低调大师

初探语音识别ASR算法

2021-12-28 606

摘要：语音转写文字ASR技术的基本概念与数学原理简介。

本文分享自华为云社区《新手语音入门（三）：语音识别ASR算法初探 | 编码与解码 | 声学模型与语音模型 | 贝叶斯公式 | 音素》，作者：黄辣鸡。

语音识别技术的发展已有数十年发展历史，大体来看可以分成传统的识别的方法和基于深度学习网络的端到端的方法。

无论哪种方法，都会遵循“输入-编码-解码-输出”的过程。

图1 语音识别过程

编码过程：

语音识别的输入是声音，属于计算机无法直接处理的信号，所以需要编码过程将其转变为数字信息，并提取其中的特征进行处理。编码时一般会将声音信号按照很短的时间间隔，切成小段，成为帧。对于每一帧，可以通过某种规则（例如MFCC特征）提取信号中的特征，将其变成一个多维向量。向量中的每个维度都是这帧信号的一个特征。

图2 语音识别编码过程

解码过程：

解码过程则是将编码得到的向量变成文字的过程，需要经过两个模型的处理，一个模型是声学模型，一个模型是语言模型。声学模型通过处理编码得到的向量，将相邻的帧组合起来变成音素，如中文拼音中的声母和韵母，再组合起来变成单个单词或汉字。语言模型用来调整声学模型所得到的不合逻辑的字词，使识别结果变得通顺。两者都需要大量数据用来训练。

图3 语言模型处理过程

已知一段音频信号，处理成声学特征向量Acoustic Feature Vector后表示为X=[x1,x2,x3,…]X=[x1,x2,x3,…],其中x_ixi表示一帧特征向量；可能的文本序列表示为W=[w1,w2,w3,…]W=[w1,w2,w3,…],其中wi表示一个词，求W∗=argmaxwP(W∣X)，这便是语音识别的基本出发点。并且由贝叶斯公式可知：

其中，P(X|W)P(X∣W)称之为声学模型（Acoustic Model, AM）, P（W）P（W）称之为语言模型（Language Model, LM），由于P(W)P(W)一般是一个不变量，可以省去不算。

目前许多研究将语音识别问题看做声学模型与语音模型两部分，分别求取P(X|W)P(X∣W)和P(W)P(W)。后来，基于深度学习和大数据的端对端（End-to-End）方法发展起来，直接计算P(W|X)P(W∣X)，把声学模型和语言模型融为了一体。

语音识别的问题可以看做是语音到文本的对应关系，语音识别问题大体可以归结为文本基本组成单位的选择上。单位不同，则建模力度也随之改变。

图4 语音识别的基本途径

根据图中文本基本组成单位从大到小分别是：

整句文本，如“Hello
World”,对应的语音建模尺度为整条语音。
词，如孤立词“Good”、“World”、对应的语音建模尺度大约为每个词的发音范围。
音素，如将“world”进一步表示为“/wɘrld//wɘrld/”,其中的每个音标作为基本单位，对应的语音建模尺度则缩减为每个音素的发音范围。
三音素，即考虑上下文的音素，如将音素“/d//d/”进一步表示为“{/l-d-sil, /u-d-l/,…}/l−d−sil,/u−d−l/,…”,对应的语音建模尺度是每个三音素的发音范围，长度与单音素差不多。
隐马尔可夫模型状态，即将每个三因素都用一个三状态隐马尔可夫模型表示，并用每个状态作为建模粒度，对应的语音建模尺度将进一步缩短。

上面每种实现方法都对应着不同的建模粒度，大体可以分为以隐马尔可夫模型结构和端对端的结构。后面两期博文将详细介绍基于两种结构的语音识别算法设计。

参考

语音识别基本法 - 清华大学语音和语言技术中心[PDF]

点击关注，第一时间了解华为云新鲜技术~

微信关注我们

原文链接：https://my.oschina.net/u/4526289/blog/5381689

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

低代码开发工具，J2PaaS v1.4 列表功能更新

J2PaaS 是吉鼎科技基于20年技术沉淀和项目经验而研发，以“把编程变简单，甚至不需要编程”为核心理念，集开发引擎、运行引擎、项目管理等于一体，覆盖软件项目需求分析、设计、开发、测试、运行、维护与管理等全过程，是可视化、组件化、拖拽式开发的企业级低代码开发平台。 J2PaaS 平台包含开发引擎和运行引擎，开发引擎是参数式低代码开发，通过简单快速的拖拉拽，就能实现页面、列表、报表、逻辑、工作流等系统功能的敏捷开发。运行引擎则负责应用系统的运行、管理、维护。此次J2PaaS-Framework（运行引擎）更新内容如下：更新log4j2, 修复CVE-2021-45105 列表前端增加选择事件列表可编辑且有onRow逻辑初始化时载入内存，解决保存时数据丢失的问题更新业务数据库配置文档说明 J2PaaS平台源码下载：https://gitee.com/j2paas 平台Demo演示：https://jikaiyun.com/Points J2PaaS平台把常规需要程序员完成的功能集成在框架中，开发人员只需关注业务逻辑，页面组装及流程设计等相关功能已经内置完成，它不仅是一个开发平台，还...

2021-12-29

568

摘要：由于字符串数据几乎无处不在，因此掌握有关字符串的交易工具非常重要。幸运的是，Python 使字符串操作变得非常简单，尤其是与其他语言甚至旧版本的 Python 相比时。本文分享自华为云社区《在 Python 中拆分、连接和连接字符串》，作者： Yuchuan 。生活中几乎没有什么保证：死亡、税收和需要处理字符串的程序员。字符串可以有多种形式。它们可以是非结构化文本、用户名、产品描述、数据库列名称，或者我们使用语言描述的任何其他内容。由于字符串数据几乎无处不在，因此掌握有关字符串的交易工具非常重要。幸运的是，Python 使字符串操作变得非常简单，尤其是与其他语言甚至旧版本的 Python 相比时。在本文中，您将学习一些最基本的字符串操作：拆分、连接和连接。您不仅会学习如何使用这些工具，而且会更深入地了解它们的工作原理。拆分字符串在 Python 中，字符串表示为str对象，它们是不可变的：这意味着不能直接更改内存中表示的对象。这两个事实可以帮助您学习（然后记住）如何使用.split(). 您是否已经猜到字符串的这两个特性与 Python 中的拆分功能有何关系？如果您猜...

2021-12-28

585

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。