语音识别（ASR）基础介绍第四篇——当今流行做法与CTC-低调大师

语音识别（ASR）基础介绍第四篇——当今流行做法与CTC

2019-05-29 904

本篇开始，就进入到了asr当前的流行做法。这里单独提到了CTC算法。这个算法对当前asr使用deep learning的方法有重大影响。

总体感觉，写到本篇，工作量反而变得很小。因为进入deep learning时代后，神经网络模型基本都是那么几种，已经不再需要挨个详细介绍。而且看图就能理解的很明白。所以本篇后半部分基本就是贴图了。。:D

一、CTC

在CTC之前，训练语料要配合上一篇中提到的方法，需要人工把音频中每个时间段对应的是哪个音素的信息标注清楚。这个工作量和对人及金钱的需求是巨大的。基本都是百万级别手笔。有个CTC之后，给定一个音频，就只要告诉这个音频说的是什么文本就好了。省掉了对齐的那一步。由此，其重要性可自行判断。

关于CTC，感觉与其这里坑坑洼洼的介绍，不如直接参考这篇知乎的文章——https://z

微信关注我们

原文链接：https://yq.aliyun.com/articles/704173

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

搜狗开源业内最全「阅读理解工具集合」，助力研发人员快速构建高效模型

机器阅读理解是当前智能问答领域中的热门研究问题，它的目标是根据给定的问题和文章（段落），在文章（段落）中抽取或改写文字片段作为问题的答案。举例来说，当前多数的搜索引擎，当用户输入的搜索关键字是一个问题时，就会尝试从搜索结果的网页中寻找答案并以最高优先级呈现给用户。例如搜索“搜狗的吉祥物是什么”，搜索引擎就会反馈如下：这其中所利用到的技术便是“机器阅读理解”。近年来，由于神经网络的复兴和大规模数据集的可访问，阅读理解的研究取得了很大的进展，相继涌现出许多优秀的机器阅读理解模型。例如，在SQuAD 1.0的排行榜中就已经有80多个提交的模型，其中有相当一部分模型的性能已经超越了人类的表现。这里存在一个问题。作为一个研究人员或开发者，为了比较这些模型的优缺点并加以利用，重现这些模型是非常必要的。但在已有的模型中，很多

2019-05-28

660

上一章介绍了万金油特征MFCC，相当于数据的输入已经确定了。本章尽可能的介绍经典asr做法。其中涉及到的各种概念和思考，了解了之后，和相关专业的人交流，大概就不再迷茫了:D 传统方法也可以按声学模型和语言学模型的方式来划分。声学模型主要的职责是，把一段音频处理成类似拼音的形式，然后交给语言模型来猜: 能够发这些音的单词，怎么组合起来更常见一些。然后找到最可能的组合，便是asr的结果了。本章介绍的，其实是下图左侧的部分。一、术语定义介绍一个概念前，首先要把它依赖的术语说明白，其实asr领域的术语定义并不复杂，反而非常符合直观感觉。换句话说，定义基本是一眼就明白意思并且觉得没有毛病的样子。上图右侧是传统模型的大致处理流程。里面用到的术语基本都在左侧介绍了。架构解释了整体的处理逻辑：已知一句话中的一系列单词W ，在MFCC发

2019-05-29

1347

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。