小红书发布 DynamicFace 人脸生成技术
小红书AIGC团队近日正式发布了名为DynamicFace的可控人脸生成技术。针对图像及视频领域的人脸融合任务实现了高质量与高度一致性的置换效果。
与传统人脸置换方法相比,DynamicFace 独创性地将扩散模型(Diffusion Model)与可组合的 3D 人脸先验进行深度融合,针对人脸运动与身份信息进行了精细化解耦以生成更一致的人脸图像和视频。
-
可组合三维面部先验的显式条件解耦
针对现有方法在身份与运动表征中普遍存在的耦合冗余问题,Dynamicface 提出将人脸条件显式分解为身份、姿态、表情、光照及背景五个独立的表征,并基于 3DMM 重建模型获取对应参数。
具体而言,利用源图像提取身份形状参数 α,目标视频逐帧提取姿态 β 与表情 θ,随后渲染生成形状–姿态法线图,减少目标人脸身份泄露,最大程度保留源身份;表情信息仅保留眉毛、眼球及口唇区域的运动先验,避免引入目标身份特征;光照条件由 UV 纹理图经模糊处理得到,仅保留低频光照分量;背景条件采用遮挡感知掩码与随机位移策略,实现训练–推理阶段的目标脸型对齐。四条条件并行输入 Mixture-of-Guiders,每组由3×3 卷积与零卷积末端构成,在注入网络前经过 FusionNet 融合四条条件的特征后注入到扩散模型中,可在保持 Stable Diffusion 预训练先验的同时实现精准控制。
-
身份–细节双流注入机制
为实现高保真身份保持,DynamicFace 设计了双流并行注入架构。高层身份流由 Face Former 完成:首先利用 ArcFace 提取 512 维 ID Embedding,再通过可学习 Query Token 与 U-Net 各层 Cross-Attention 交互,确保全局身份一致性;细节纹理流由 ReferenceNet 实现,该网络为 U-Net 的可训练副本,将 512×512 源图潜变量经 Spatial-Attention 注入主网络,实现细粒度的纹理迁移。
-
即插即用时序一致性模块
针对时序一致性问题,DynamicFace 会在训练中插入时序注意力层来优化帧间稳定性,但时序层在处理长视频生成时会出现帧间跳动的现象。为此,我们提出了 FusionTVO,将视频序列划分为若干段,并为每段设置融合权重,在相邻段的重叠区域实行加权融合;并在潜变量空间引入总变差(Total Variation)约束,抑制帧与帧之间的不必要波动;对于人脸之外的背景区域,在每一步去噪迭代过程中采用目标图像中的背景潜变量空间进行替换,维持了场景的高保真度。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
传音控股抢滩全球化4.0赛道 赋能新兴市场数字新基建
当世界迈入全球化4.0时代,数字浪潮以前所未有的速度重塑商业版图。 面对国际巨头构筑的竞争壁垒,中国品牌如何破局?传音控股以一组亮眼数据给出了答案——连续多年稳居非洲手机市场份额榜首,业务覆盖70余个国家和地区,成为新兴市场当之无愧的“数字生态定义者”。其成功核心在于深度践行“技术适配”与“文化共生”战略,为中国企业全球化征程提供了极具价值的参考样本。 数字全球化时代,传音以技术适配破解“水土不服” 全球化4.0时代,即数字全球化的时代。在这一阶段,数字技术、人工智能、大数据、物联网等新兴技术成为推动全球经济发展的核心力量。与此同时,创新不再局限于发达国家,全球范围内的创新网络正在形成。通过跨境合作和技术转移,新兴市场国家也能够快速获取先进技术,实现经济的跨越式发展。 这对于出海的中国企业来说,既是机遇,亦是挑战。 深耕非洲等新兴市场的传音,在面对新兴市场复杂的用户需求与基础设施差异之时,没有选择“随大流式”的降维打击,而是构建起独特的、本土式的“反向创新”体系。例如,针对非洲国家局部地区经常停电、早晚温差大、使用者手部汗液多等问题,传音研制了低成本高压快充技术、超长待机、环境温度检测...
-
下一篇
陈天桥联手清华教授代季峰发布开源 AI“深度研究”项目:MiroMind ODR
国内 AI 领域科学家、清华大学电子工程系副教授代季峰,与创新企业家、慈善家、天桥脑科学研究院创始人陈天桥联手筹备一家致力于打造通用人工智能(AGI)新公司一事,引发广泛关注。 如今,代季峰带来了技术“首秀”。 代季峰领衔的MiroMind AI团队日前公布了一个高性能、完全开源、开放协作的深度研究项目:MiroMind Open Deep Research(Miro ODR),其V0.1版本的GAIA测试达82.4分,性能超越OpenAI的DeepResearch、Manus等一众开源和闭源AI深度研究模型,从而成为当前开源最强Deep Research模型。 与现有的深度研究方法相比,MiroMind ODR项目开放了深度研究的各个阶段,包括四个子项目:MiroFlow(Agent框架)、MiroThinker(模型)、MiroVerse(数据)和MiroTrain(训练基础设施)。 MiroFlow,支持多种主流工具调用,扩展大语言模型,支持工具辅助的深度研究推理。它的亮点在于可以稳定复现最强性能,也就是GAIA上82.4的成绩。 MiroThinker,原生支持工具辅助推理的大...
相关文章
文章评论
共有0条评论来说两句吧...