您现在的位置是:首页 > 文章详情

DreamTalk —— 音频驱动型表情包生成框架

日期:2024-01-09点击:146

DreamTalk 是一种基于 diffusion 的音频驱动型表情包生成框架,可以生成高质量的表情包视频,涵盖多种说话风格。DreamTalk 在处理各种输入(包括歌曲、多语言语音、嘈杂音频和域外肖像)时表现出强劲的性能。

具体来说,DreamTalk 由三个关键组件组成:去噪网络、风格感知唇部专家和风格预测器。基于扩散的去噪网络能够一致地合成不同表情的高质量音频驱动的面部运动。为了增强唇部动作的表现力和准确性,项目团队引入了风格感知型唇部专家,可以指导唇部同步,同时注意说话风格。为了消除对表情参考视频或文本的需要,利用额外的基于扩散的风格预测器直接从音频预测目标表情。通过这种方式,DreamTalk 可以利用强大的扩散模型有效地生成富有表现力的面孔,并减少对昂贵的风格参考的依赖。

实验结果表明,DreamTalk 能够生成具有多种说话风格的逼真说话面孔,并实现准确的嘴唇动作,超越了现有最先进的同类产品。

原文链接:https://www.oschina.net/p/dreamtalk
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章