阿里巴巴和国内外高校研究人员开发新读唇语AI,准确率大升
首先需要理解是,人工智能和机器学习算法能够从视频中读取唇语并非首创。早在2016年,来自谷歌和牛津大学的研究人员就详细介绍了一个系统,该系统可以以46.8% 的准确率为视频片段添加注释,其准确率超过了专业人类读唇器的12.4%。但即使是最先进的系统也难以克服唇动中的模糊性,使其性能无法超越基于音频的语音识别。
为了追求更高效的系统,阿里巴巴、浙江大学和史蒂文斯理工学院(Stevens Institute of Technology)的研究人员设计了一种方法,称为 LIBS(Lip by Speech),利用从语音识别器中提取的特征作为补充线索。他们说,在衡量准确性的在两个行业标杆基准测试上,它以7.66% 和2.75% 的字符错误率优于基线。
LIBS 和其他类似的解决方案可以帮助那些听力不好的人观看没有字幕的视频。据估计,全世界有4.66亿人遭受听力丧失,约占全世界人口的5%。根据世界卫生组织的数据,到2050年,这个数字可能会超过9亿。
LIBS 从人类说话者的视频中提取有用的音频信息,在多个尺度上,包括序列级、上下文级和帧级。然后通过识别它们之间的对应关系将这些数据与视频数据对齐(由于不同的采样率和有时出现在开头或结尾的空白,视频和音频序列具有不一致的长度) ,并利用滤波技术来精炼特征。
LIBS语音识别器和唇读器都构建于一种基于注意的序列到序列的体系结构,这是一种机器翻译方法,它将序列(即音频或视频)输入映射到具有标记和注意值的输出。
研究人员对他们进行了上述语言和 LRS2语言的训练,其中包含了超过45,000个来自 BBC 的口语句子,还有 CMLR 语言,这是中国最大的普通话唇读语料库,有超过100,000个来自中国网络电视网的自然句子(包括超过3,000个汉字和20,000个短语)。
研究小组指出,由于某些句子太短,该模型难以在 LRS2数据集上获得“合理”的结果 (译码器很难从少于14个字符的句子中提取出相关信息)。然而,一旦对长度最多为16个单词的句子进行预训练,解码器就可以利用上下文层面的知识,提高 LRS2数据集中句子末尾部分的质量。
“LIBS 减少了对无关框架的关注,”研究人员在一篇描述他们工作内容的论文中写道,“帧级知识提取进一步提高了视频帧特征的鉴别能力,使注意力更加集中。”
原文发布时间:2019-12-05
本文作者:EI
本文来自阿里云云栖号&云栖社区合作伙伴“TechEdge科技边界”,了解相关信息可以关注“TechEdge科技边界”
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
11月全球Web服务器调查报告:Nginx 表现最佳
Netcraft 公司官网每月公布的全球 Web 服务器调查报告“Web Server Survey”是当前人们了解全球网站数量以及服务器市场分额情况的主要参考依据,2019 年 11月份的报告目前已经发布。 11月份报告共收录了 1 308 343 327 个站点数据,包括 243 734 379 个独立域名和 9 274 744 个面向 Web 的计算机。 统计所有网站,排名前 4 位的 Web 服务器供应商分别是 nginx、Apache、微软与谷歌,其中微软、nginx 与谷歌本月都新增了网站,分别增加了 1941 万(+10.59%)、1017 万(+ 2.38%)与 133 万(+ 3.83%)网站,而 Apache 则失去了 1356 万(-3.64%)个网站。 所有站点数据如下: 尽管微软总体上获得了最多的站点,但域的增加相对较少(+13 000),而 Apache 虽然域名大幅增加(+268 000),但整体上域市场份额也下降了。 nginx 表现不错,域名的数量增加几乎是 Apache 的两倍(+522 000),而其市场份额也基本保持不变。nginx 在面向 We...
- 下一篇
对话阿里云叔同:释放云价值,让容器成为“普适”技术
作者 | 刘丹受访者 | 丁宇出品 | CSDN云计算(ID:CSDNcloud) 云改变了IT业态和市场格局,催生了应用大发展的时代,企业可以更加专注于构建符合其愿景的、更具生命力的业务创新。全面使用云服务构建软件的时代已经到来,在这个大背景下,云原生的概念被提出并迅速具象化,而以容器为代表的云原生技术,作为提升云化服务能力的最佳选择,也得以快速发展。 2019年1月份,Tripwire发布了2019年关于容器的最新现状调查研究。根据反馈,高达86%的受访者在生产环境中使用了容器,近32%的受访者所在企业生产环境中使用容器的数量超过了100个。整体来看,容器在生产环境中的使用量已经得到了很大程度的提升。调查预测显示,目前应用容器市场规模将从2016年的7.62亿美元增长到2020年的27亿美元。不难看出,引入容器所展现的巨大灵活性有效地推动了其应用的步伐,使企业日益依赖该技术。 近年来,容器技术及相关应用得到了国内外越来越多的关注,研发和应用推广的发展势头迅猛。本期《问底中国IT技术演变》,我们有幸采访到阿里云智能容器平台负责人丁宇(花名叔同),就云计算时代容器技术的发展路径,以及阿...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8编译安装MySQL8.0.19
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2整合Redis,开启缓存,提高访问速度
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Hadoop3单机部署,实现最简伪集群
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果