阿里巴巴和国内外高校研究人员开发新读唇语AI，准确率大升-低调大师

阿里巴巴和国内外高校研究人员开发新读唇语AI，准确率大升

2019-12-05 722

首先需要理解是，人工智能和机器学习算法能够从视频中读取唇语并非首创。早在2016年，来自谷歌和牛津大学的研究人员就详细介绍了一个系统，该系统可以以46.8% 的准确率为视频片段添加注释，其准确率超过了专业人类读唇器的12.4%。但即使是最先进的系统也难以克服唇动中的模糊性，使其性能无法超越基于音频的语音识别。

为了追求更高效的系统，阿里巴巴、浙江大学和史蒂文斯理工学院（Stevens Institute of Technology）的研究人员设计了一种方法，称为 LIBS（Lip by Speech），利用从语音识别器中提取的特征作为补充线索。他们说，在衡量准确性的在两个行业标杆基准测试上，它以7.66% 和2.75% 的字符错误率优于基线。

LIBS 和其他类似的解决方案可以帮助那些听力不好的人观看没有字幕的视频。据估计，全世界有4.66亿人遭受听力丧失，约占全世界人口的5%。根据世界卫生组织的数据，到2050年，这个数字可能会超过9亿。

LIBS 从人类说话者的视频中提取有用的音频信息，在多个尺度上，包括序列级、上下文级和帧级。然后通过识别它们之间的对应关系将这些数据与视频数据对齐(由于不同的采样率和有时出现在开头或结尾的空白，视频和音频序列具有不一致的长度) ，并利用滤波技术来精炼特征。

LIBS语音识别器和唇读器都构建于一种基于注意的序列到序列的体系结构，这是一种机器翻译方法，它将序列(即音频或视频)输入映射到具有标记和注意值的输出。

研究人员对他们进行了上述语言和 LRS2语言的训练，其中包含了超过45,000个来自 BBC 的口语句子，还有 CMLR 语言，这是中国最大的普通话唇读语料库，有超过100,000个来自中国网络电视网的自然句子(包括超过3,000个汉字和20,000个短语)。

研究小组指出，由于某些句子太短，该模型难以在 LRS2数据集上获得“合理”的结果 (译码器很难从少于14个字符的句子中提取出相关信息)。然而，一旦对长度最多为16个单词的句子进行预训练，解码器就可以利用上下文层面的知识，提高 LRS2数据集中句子末尾部分的质量。

“LIBS 减少了对无关框架的关注，”研究人员在一篇描述他们工作内容的论文中写道，“帧级知识提取进一步提高了视频帧特征的鉴别能力，使注意力更加集中。”

原文发布时间：2019-12-05
本文作者：EI
本文来自阿里云云栖号&云栖社区合作伙伴“TechEdge科技边界”，了解相关信息可以关注“TechEdge科技边界”

微信关注我们

原文链接：https://yq.aliyun.com/articles/738207

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

11月全球Web服务器调查报告：Nginx 表现最佳

Netcraft 公司官网每月公布的全球 Web 服务器调查报告“Web Server Survey”是当前人们了解全球网站数量以及服务器市场分额情况的主要参考依据，2019 年 11月份的报告目前已经发布。 11月份报告共收录了 1 308 343 327 个站点数据，包括 243 734 379 个独立域名和 9 274 744 个面向 Web 的计算机。统计所有网站，排名前 4 位的 Web 服务器供应商分别是 nginx、Apache、微软与谷歌，其中微软、nginx 与谷歌本月都新增了网站，分别增加了 1941 万（+10.59％）、1017 万（+ 2.38％）与 133 万（+ 3.83％）网站，而 Apache 则失去了 1356 万（-3.64％）个网站。所有站点数据如下：尽管微软总体上获得了最多的站点，但域的增加相对较少（+13 000），而 Apache 虽然域名大幅增加（+268 000），但整体上域市场份额也下降了。 nginx 表现不错，域名的数量增加几乎是 Apache 的两倍（+522 000），而其市场份额也基本保持不变。nginx 在面向 We...

2019-12-06

699

作者 | 刘丹受访者 | 丁宇出品 | CSDN云计算（ID：CSDNcloud）云改变了IT业态和市场格局，催生了应用大发展的时代，企业可以更加专注于构建符合其愿景的、更具生命力的业务创新。全面使用云服务构建软件的时代已经到来，在这个大背景下，云原生的概念被提出并迅速具象化，而以容器为代表的云原生技术，作为提升云化服务能力的最佳选择，也得以快速发展。 2019年1月份，Tripwire发布了2019年关于容器的最新现状调查研究。根据反馈，高达86%的受访者在生产环境中使用了容器，近32%的受访者所在企业生产环境中使用容器的数量超过了100个。整体来看，容器在生产环境中的使用量已经得到了很大程度的提升。调查预测显示，目前应用容器市场规模将从2016年的7.62亿美元增长到2020年的27亿美元。不难看出，引入容器所展现的巨大灵活性有效地推动了其应用的步伐，使企业日益依赖该技术。近年来，容器技术及相关应用得到了国内外越来越多的关注，研发和应用推广的发展势头迅猛。本期《问底中国IT技术演变》，我们有幸采访到阿里云智能容器平台负责人丁宇（花名叔同），就云计算时代容器技术的发展路径，以及阿...

2019-12-05

768

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。