DreamTalk —— 音频驱动型表情包生成框架
DreamTalk 是一种基于 diffusion 的音频驱动型表情包生成框架,可以生成高质量的表情包视频,涵盖多种说话风格。DreamTalk 在处理各种输入(包括歌曲、多语言语音、嘈杂音频和域外肖像)时表现出强劲的性能。 具体来说,DreamTalk 由三个关键组件组成:去噪网络、风格感知唇部专家和风格预测器。基于扩散的去噪网络能够一致地合成不同表情的高质量音频驱动的面部运动。为了增强唇部动作的表现力和准确性,项目团队引入了风格感知型唇部专家,可以指导唇部同步,同时注意说话风格。为了消除对表情参考视频或文本的需要,利用额外的基于扩散的风格预测器直接从音频预测目标表情。通过这种方式,DreamTalk 可以利用强大的扩散模型有效地生成富有表现力的面孔,并减少对昂贵的风格参考的依赖。 实验结果表明,DreamTalk 能够生成具有多种说话风格的逼真说话面孔,并实现准确的嘴唇动作,超越了现有最先进的同类产品。










