多模态人物视频驱动技术回顾与业务应用
然而,要实现上述丰富应用场景,则需掌握并突破一系列关键的技术瓶颈。为了深入理解人物视频生成技术的发展现状及其工作机制,本文首先回顾了该领域的关键技术,包括口唇驱动、头部驱动以及肢体驱动,并选取每项技术中的两篇代表性研究进行详细介绍。随后,文章进一步探讨了人物视频生成技术在淘天业务场景中的应用形式与效果,为推动人物视频生成技术的实际落地提供了新的启示。
▐ 口唇驱动
在口唇驱动领域的一个经典工作是由印度研究人员在 MM20 上发表的 Wav2Lip[1]。该方法目前在 GitHub 上已获得了超过 10,700 次 star 的关注。Wav2Lip 是一个基于生成对抗网络(GAN)的语音驱动口唇方案,采用逐帧独立输出的方式。其流程结构如下图所示:
Wav2Lip 主要包括三个核心模块:Speech Encoder、Identity Encoder 和 Face Decoder。对于一段待驱动口唇的视频,首先提取其中的音频并进行切片处理,使得每个音频片段能够与具体的视频帧对应起来。将这些音频片段转换成梅尔频谱,并输入到 Speech Encoder 中以获取音频特征。同时,遮住待驱动帧的下半部分图像,并随机选择一帧作为参考图。这两张图片通过通道拼接的方式输入到 Identity Encoder 中,提取出图像特征。接下来,将得到的音频特征和图像特征进行拼接并传递给 Face Decoder,最终生成具有唇形变化的一帧视频。
Wav2Lip 的训练损失函数较为复杂,这是该工作的主要创新点之一。具体来说,它包含一个判别器用于评估生成图像的视觉保真度,这是一个典型的 GAN 损失项。
此外,Wav2Lip 还在像素空间中计算 L1 损失。

然而,由于口唇区域在整个脸部所占的比例很小(约 4%),重建损失对口唇部分的影响相对较小;同时,GAN 的主要目标是生成逼真的图像,而不是专注于特定细节的同步度。因此,Wav2Lip 引入了一种称为同步损失(Sync Loss)的技术,并在此基础上加入了时间约束。
具体而言,在训练过程中一次性引入了



首先,将一个参考人脸图像与遮挡下半部分的目标图像通过变分自编码器(VAE)进行编码,生成潜在空间中的特征表示,并将其拼接后作为 UNet 模型的输入。对于驱动音频,在时刻
MuseTalk 的目标函数设计较为复杂,与 Latent Diffusion Model 在潜空间计算 MSE loss 不同的是,MuseTalk 在像素空间中计算重建损失 




特别值得注意的是,在训练阶段引入了 Selective Information Sampling (SIS) 模块:选择头部姿态接近但口唇差异大的样本作为参考图像,从而让模型更加专注于生成高质量的口唇部分。
在实验效果方面,MuseTalk 确实优于 Wav2Lip,主要原因包括以下几个因素:
-
音频特征提取:MuseTalk 使用 Whisper 提取更高质量的音频特征,提升了口唇同步性能。
-
跨模态融合机制:MuseTalk 通过 cross-attention 融合音频和图像特征,相比简单的空间拼接方法更能捕捉到多模态信息之间的复杂关系。
-
网络结构优化:采用基于 Latent Diffusion Model (LDM) 的 UNet 网络结构,并引入了注意力层(attention layers),增强了模型在生成高质量图像时的表示能。
-
参考图片选择机制:通过 SIS 机制选择头部姿态接近但口唇差异大的样本作为参考图片,使得模型更加专注于生成高质量的口唇部分。
-
损失函数改进:引入了基于 VGG19 特征提取器计算的感知损失,进一步提升图像质量。
-
VAE 编解码:通过采用 VAE 进行编解码操作,可以实现更高质量和更高分辨率的图像生成。
▐ 头部驱动
Hallo的整体流程与即将介绍的AnimateAnyone非常相似。具体而言,通过在潜在空间中随机采样噪声,并对其进行去噪处理以得到视频的潜在变量
。该方法主要包括以下模块:
-
VAE 编解码器:使得模型能够在潜在空间进行有效的去噪操作。
-
AudioEncoder(wav2vec 模型):用于编码驱动音频信号,并将其注入到DenoiseUNet中,以实现与语音同步的动画效果。
-
ReferenceNet 和 FaceEncoder 图像编码器:编码全局视觉纹理信息,从而保证角色动画的一致性和可控性。ReferenceNet 的层级特征与 DenoiseUNet 中对应的特征进行融合,以便嵌入身份信息。
值得一提的是,Hallo引入了层级音频-视觉交叉注意力模块(Hierarchical Audio-Visual Cross Attention)来增强语音特征和特定面部位置之间的一致性,具体结构如下图所示:
对于参考帧,需要预先检测出口唇部、面部表情和姿态等区域,并分别得到对应的掩码


除了Hallo之外,蚂蚁集团开发的EchoMimic[4] 在网络结构上与其类似,但引入了一个关键的Landmark Encoder模块(如图所示),将人脸的关键点信息纳入模型中,从而提高了生成视频的保真度和一致性。
具体而言,EchoMimic在训练过程中采用随机地标选择(Random Landmark Selection,RLS)方法,即随机丢弃一些面部关键点(如下图所示),这使得推理阶段可以使用完整或部分的面部关键点。这一设计提供了额外的控制条件,使模型具备更高的灵活性,并结合了Hallo和LivePortrait的优点。
此外,在损失函数的设计上,EchoMimic 不仅在潜在空间中计算损失,还在像素空间中引入了一个损失项以捕捉面部细节信息。这种多尺度损失策略有助于提升生成视频的质量。综上所述,虽然EchoMimic的网络结构与Hallo相似,但其引入的关键点编码器和改进的损失函数使其具备了更高的灵活性和更好的性能表现。
在定量指标方面,EchoMimic表现出更好的性能。这很大程度上归因于其更大的训练数据集:EchoMimic使用了540小时的数据进行训练,而Hallo仅使用了150+小时的训练数据。
除了上述工作之外,基于3D方案的头部驱动也进行了大量研究,如GeneFace[5]、GeneFace++[6] 和SyncTalk[7] 等。这些方法大多基于NeRF或Gaussian Splatting技术,并通常需要几分钟的人脸视频进行3D建模,且针对特定形象需单独训练。由于篇幅有限,本文不详细介绍这些工作。
▐ 肢体驱动
完整的人物驱动不仅依赖于口唇和头部驱动,还需要与语音一致的人体姿态,这方面的研究被称为协同语音的人物姿态视频生成(Co-Speech Video Generation)。这类方法通常可以分为两类:生成式的视频生成和检索式的视频生成。生成式的视频生成以给定的音频作为条件,直接生成所有的视频帧。这种技术可以直接合成符合语音特征的新视频内容。检索式的视频生成则利用已有的视频片段组合出新的视频,并通过插帧的方法来补足帧之间的不连续部分。这种方法通常从现有数据中选择最匹配的部分进行重组和优化。这两种方法各有优缺点,具体应用取决于需求和资源的可用性。生成式方法可以直接合成新内容,但可能需要更多的计算资源;检索式方法则可以利用现有的大量视频片段,但在插帧时可能会遇到不连续的问题。
-
生成式协同语音的视频生成
对于第一阶段的speech2pose相关工作,主要包括PantoMatrix[10] 等研究。这一领域的详细内容本文不做详细介绍,请读者查阅原始文献。近年来,在pose2video领域中最具代表性的作品之一是AnimateAnyone[8]。其流程框图如下所示:
AnimateAnyone的目标是从随机噪声

-
基于预训练的 VAE 编码器和解码器:通过预训练的变分自编码器(VAE)在潜在空间中进行去噪过程; -
PoseGuider:将姿态特征添加到潜在空间中的噪声中,作为 DenoiseNet 的输入。这一步确保了生成的动作与语音信号的一致性。 -
ReferenceNet 和 CLIP 图像编码器:通过 ReferenceNet 保持人物外观的一致性,并引入 CLIP 图像编码器来嵌入身份信息。来自 ReferenceNet 的层级特征与 Denoising UNet 中对应的特征进行融合,以确保生成的视频帧具有稳定的视觉风格。 -
v-prediction 损失计算:通过计算 v-prediction 损失用于训练整个模型。
-
检索式协同语音的视频生成
在检索式协同语音驱动的视频生成领域中,Tango[9] 是一个典型的工作实例。Tango 生成手势视频的过程可以分为三个步骤:首先,它构建了一个有向运动图(Motion Graph),将特定的原子视频片段表示为节点,并通过有效的转场路径作为边来连接这些节点。每条采样的路径指示了选定的播放顺序。其次,在输入音频之后,使用基于跨模态相似度比较模型 AuMoCLIP 进行检索模块操作,该过程通过最小化跨模态特征距离来找到与目标音频最匹配的手势路径。最后,在原始参考视频中不存在转场边的情况下,利用基于扩散的插值模型生成外观一致的连接帧。
采样得到的路径通常包含许多跳变,因此需要使用一个插帧模型来填补缺失的帧,从而生成连贯的视频。Tango 采用了基于 AnimateAnyone 的方法来进行视频插帧。如图所示,与 AnimateAnyone 不同的是,Tango 引入了 Background Guider 模块,并修改了 Motion Module 部分。通过这些改进,Tango 能够更好地处理背景和动作细节,从而生成更自然、连贯的视频。
Background Guider 的网络结构与 PoseGuider 基本相同。作者提出 Background Guider 是因为在生成插帧时发现背景存在明显的漂移和跳变现象。通过引入参考帧和目标帧之间的单应性矩阵,计算每个像素点的偏移量(offset),并将该 offset 作为 Background Guider 的输入,从而矫正生成视频中的视角误差。
在 Motion Module 部分,核心操作是时间维度上的 self-attention。作者在此模块中引入了真实参考帧的潜在特征,在训练阶段随机引入这些特征,在推理阶段则直接使用参考特征来增强生成插帧的真实性。
业务流程与效果
▐ 业务场景与流程
我们将整个业务流程划分为四个环节:素材生成与筛选、人物驱动、质量过滤和合成链路。这一完整的链路串联了组内多名同学的能力和贡献,是团队技术能力的一次综合体现。
由于需要支持多种生产线的视频生成,在素材生成与筛选阶段,我们需要集成各种类型的原始素材。具体来说:
-
从头生成视频:涉及商品池的选择与构建,以及从商品池到文案、语音等环节的生成;
-
已有视频素材:需进行干声提取和性别判定等步骤。
通过基于同步语音的相似度比较等方式,筛选并构建出质量高且通用性强的人体动作模板库。为了进一步提升人物形象的多样性,我们进行了换脸和换装操作。以下详细介绍这两项技术的应用:
-
换脸技术
换脸技术已经非常成熟,流行的方法有 Roop、FaceFusion 等等。然而,我们面临的难点是如何获取丰富且无版权限制的人脸图片。起初,我们考虑使用基于扩散模型生成人脸的方案,但发现这些模型虽然可以生成较为逼真的人脸,但是这些人脸之间都非常相似,难以确保多样性。
如下图所示,我们分别使用了 Flux 和 MajicMix 模型,并结合不同的 Prompt 来生成人脸图像。然而,每一列得到的人脸图片样貌过于相似,无法保证多样性。
| flux man | flux woman | majicmix man | majicmix women |
|
|
|
|
|
FuseAnyPart 的基本思路是通过将不同人物的局部特征进行融合来生成新的形象。这种方法使得合成图像中的五官发生变化,与原图产生实质性差异,并且基于组合原理可以确保生成人脸的多样性。
具体步骤如下:
-
面部检测和掩码提取:首先使用一个开放集检测器识别面部图像,以获取各种面部部位(如眼睛、鼻子、嘴巴等)的掩码。
-
特征提取:接着,通过图像编码器利用这些掩码从面部图像中提取相应的局部特征。
-
基于掩码的融合模块:将提取到的面部部位特征和掩码输入到基于掩码的融合模块,在潜在空间中组合出一个完整的面部。
-
加法注入模块:整合后的特征被传送到基于加法的注入模块,以便在扩散模型的 UNet 结构中进行进一步的融合。
这种技术使得生成的人脸具有高度多样性和自然感。通过在潜在空间中的灵活组合和调整,可以创造出新的面部形象,从而有效解决人脸多样性的问题,并为人物驱动提供高质量、多样化的人脸素材。
经过 FuseAnyPart 的融合处理,可以得到清晰、自然的合成人脸图像,并且与一些基线方法相比表现出更佳的效果。
此外,FuseAnyPart 在跨种族和跨年龄样本的合成上也展示出了不错的表现,能够生成多样化的人脸图像。
FuseAnyPart 还可以进行人物与卡通形象的融合,提供更多的创意应用场景。这种灵活性不仅增加了系统的趣味性和多样性,还拓展了其在娱乐、游戏等领域的应用范围。
为了构建高质量的人脸库,在业务数据集上我们通过 FuseAnyPart 生成了一批合成人脸,并对其五官进行了调整和替换。这些经过处理的合成人脸不仅可以用于人物驱动,还可以在其他需要人脸图像的应用场景中使用,大大丰富了数据资源并提高了应用效果。
通过上述方法和技术,我们可以确保生成的人脸库既具有多样性又具备高质量和自然感。这不仅有助于提升用户体验,还为各种应用场景提供了丰富的素材支持。
-
换衣技术
为了进一步提升人物的多样性,除了进行换脸之外,还开发了一种视频级的换衣技术,并应用了组内研发的 GPD-VVTO[12] 方案,目前该工作已经收录于 ACMMM24。该方案能够在视频上实现细节丰富、时序一致的换衣效果,为人物提供了更多的创意和应用场景。
通过这一方案的应用,不仅提升了人物形象在视觉上的多样性,还增强了其在娱乐和商业应用中的吸引力和互动性。这为用户提供了一种全新的体验方式,使人物视频更加生动和真实。GPD-VVTO 方案在视频级换衣技术中展现出了卓越的能力,能够生成高质量、自然且一致的换衣效果。这对于提升人物视频的多样性和用户体验具有重要意义,并为进一步拓展其应用领域奠定了坚实基础。
目前,在产品效果方面,我们设计了多种样式以增强含人物的营销视频的多样化,在素材外投业务中进行了初步尝试,结果显示引入人物显著提升了视频的点击率。为期两周的线上测试表明,通过添加二次创作的人物视频都能够有效吸引观众的注意力,并提高用户的互动和参与度。鉴于这些积极的结果,相关量产方案正在设计当中,以期在未来更大范围内推广和应用人物视频生成技术,从而实现更广泛的商业价值。
我们是淘宝业务技术内容AI团队-视频生成组,专注于服饰时尚领域,持续迭代服饰上身视频生成基础模型和下游服饰应用模型效果,并持续完善 FashionVideoGen 服饰视频产品化解决方案,面向商家和内容场域,做更灵活可控和多样化的视频生成产品化能力,让AIGC技术充分发挥业务价值。欢迎关注。
本文分享自微信公众号 - 大淘宝技术(AlibabaMTT)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。
关注公众号
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
微软 Phi-4 家族新成员:Phi-4 多模态和 Phi-4 迷你
微软于 2024 年 12 月发布了 Phi-4,这是一款在同类产品中表现卓越的小型语言模型(SLM)。 今日,微软宣布为 Phi-4 家族推出两款全新模型:Phi-4 多模态(Phi-4-multimodal)和 Phi-4 迷你(Phi-4-mini)。 Phi-4 多模态模型是微软首款集成语音、视觉和文本处理的统一架构多模态语言模型,参数量达 56 亿。在多项基准测试中,Phi-4 多模态的表现优于其他现有的先进全模态模型,例如谷歌的 Gemini 2.0 Flash 和 Gemini 2.0 Flash Lite。 在语音相关任务中,Phi-4 多模态在自动语音识别(ASR)和语音翻译(ST)方面超越了 WhisperV3 和 SeamlessM4T-v2-Large 等专业语音模型。微软表示,该模型在 Hugging Face OpenASR 排行榜上以 6.14% 的词错误率位居榜首。 在视觉相关任务中,Phi-4 多模态在数学和科学推理方面表现出色。在文档理解、图表理解、光学字符识别(OCR)和视觉科学推理等常见多模态能力方面,该模型与 Gemini-2-Flash-li...
-
下一篇
百万级群聊的设计实践
作者:来自 vivo 互联网服务器团队- Cai Linfeng 本文介绍了服务端在搭建 Web 版的百万人级别的群聊系统时,遇到的技术挑战和解决思路,内容包括:通信方案选型、消息存储、消息有序性、消息可靠性、未读数统计。 一、引言 现在IM群聊产品多种多样,有国民级的微信、QQ,企业级的钉钉、飞书,还有许多公司内部的IM工具,这些都是以客户端为主要载体,而且群聊人数通常都是有限制,微信正常群人数上限是500,QQ2000人,收费能达到3000人,这里固然有产品考量,但技术成本、资源成本也是很大的因素。而笔者业务场景上需要一个迭代更新快、轻量级(不依赖客户端)、单群百万群成员的纯H5的IM产品,本文将回顾实现一个百万人量级的群聊,服务器侧需要考虑的设计要点,希望可以给到读者一些启发。 二、背景介绍 不同的群聊产品,采用的技术方案是不同的,为了理解接下来的技术选型,需要先了解下这群聊产品的特性。 单群成员需要支撑百万人,同时在线百万级。 功能、体验要接近纯客户端实现方案。 用户端完全用H5承载。 三、通信技术 即时通信常见的通信技术有短轮询、长轮询、Server-Sent Events(...
相关文章
文章评论
共有0条评论来说两句吧...





















微信收款码
支付宝收款码