您现在的位置是:首页 > 文章详情

阿里发布肖像视频生成框架 EMO

日期:2024-02-29点击:230

来自阿里巴巴的团队发布了音频驱动的肖像视频生成框架 EMO(Emote Portrait Alive),相关论文同步发表于 arXiv。

https://arxiv.org/pdf/2402.17485.pdf

输入一张参考图像和声音音频,该框架能够生成具有丰富面部表情和头部姿势的声音肖像视频。

EMO的工作过程分为两个主要阶段:首先,利用参考网络(ReferenceNet)从参考图像和动作帧中提取特征;然后,利用预训练的音频编码器处理声音并嵌入,再结合多帧噪声和面部区域掩码来生成视频。该框架还融合了两种注意机制和时间模块,以确保视频中角色身份的一致性和动作的自然流畅。

这个过程相当于,AI先看一下照片,然后打开声音,再随着声音一张一张地画出视频中每一帧变化的图像。

EMO的技术报告中称:实验结果表明,EMO不仅能够产生令人信服的说话视频,还能生成各种风格的歌唱视频,显著优于现有的先进方法,如DreamTalk、Wav2Lip和SadTalker,无论是在表现力还是真实感方面。

目前,研究团队认为该模型的潜在应用方向将集中在:提高数字媒体和虚拟内容生成技术水平,特别是在需要高度真实感和表现力的场景中。

然而在另一些人看来,EMO模型却很可能成为别有用心的人手中的犯罪工具。

原文链接:https://www.oschina.net/news/280842
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章