您现在的位置是:首页 > 文章详情

阿里巴巴和国内外高校研究人员开发新读唇语AI,准确率大升

日期:2019-12-05点击:384

首先需要理解是,人工智能和机器学习算法能够从视频中读取唇语并非首创。早在2016年,来自谷歌和牛津大学的研究人员就详细介绍了一个系统,该系统可以以46.8% 的准确率为视频片段添加注释,其准确率超过了专业人类读唇器的12.4%。但即使是最先进的系统也难以克服唇动中的模糊性,使其性能无法超越基于音频的语音识别。

image

为了追求更高效的系统,阿里巴巴、浙江大学和史蒂文斯理工学院(Stevens Institute of Technology)的研究人员设计了一种方法,称为 LIBS(Lip by Speech),利用从语音识别器中提取的特征作为补充线索。他们说,在衡量准确性的在两个行业标杆基准测试上,它以7.66% 和2.75% 的字符错误率优于基线。

LIBS 和其他类似的解决方案可以帮助那些听力不好的人观看没有字幕的视频。据估计,全世界有4.66亿人遭受听力丧失,约占全世界人口的5%。根据世界卫生组织的数据,到2050年,这个数字可能会超过9亿。

image

LIBS 从人类说话者的视频中提取有用的音频信息,在多个尺度上,包括序列级、上下文级和帧级。然后通过识别它们之间的对应关系将这些数据与视频数据对齐(由于不同的采样率和有时出现在开头或结尾的空白,视频和音频序列具有不一致的长度) ,并利用滤波技术来精炼特征。

LIBS语音识别器和唇读器都构建于一种基于注意的序列到序列的体系结构,这是一种机器翻译方法,它将序列(即音频或视频)输入映射到具有标记和注意值的输出。

研究人员对他们进行了上述语言和 LRS2语言的训练,其中包含了超过45,000个来自 BBC 的口语句子,还有 CMLR 语言,这是中国最大的普通话唇读语料库,有超过100,000个来自中国网络电视网的自然句子(包括超过3,000个汉字和20,000个短语)。

研究小组指出,由于某些句子太短,该模型难以在 LRS2数据集上获得“合理”的结果 (译码器很难从少于14个字符的句子中提取出相关信息)。然而,一旦对长度最多为16个单词的句子进行预训练,解码器就可以利用上下文层面的知识,提高 LRS2数据集中句子末尾部分的质量。

“LIBS 减少了对无关框架的关注,”研究人员在一篇描述他们工作内容的论文中写道,“帧级知识提取进一步提高了视频帧特征的鉴别能力,使注意力更加集中。”

原文发布时间:2019-12-05
本文作者:EI
本文来自阿里云云栖号&云栖社区合作伙伴“TechEdge科技边界”,了解相关信息可以关注“TechEdge科技边界

原文链接:https://yq.aliyun.com/articles/738207
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章