腾讯开源可控视频生成框架 MimicMotion-低调大师

腾讯开源可控视频生成框架 MimicMotion

2024-07-16 413

腾讯宣布开源可控视频生成框架 MimicMotion，该框架可以通过提供参考人像及由骨骼序列表示的动作，来产生平滑的高质量人体动作视频。

公告称，大量的实验结果和用户调研表明MimicMotion在各种方面都显著优于以往的方法。目前模型及配套代码均已开源。

与以往的方法相比，MimicMotion具有以下几个亮点：

首先，通过引入了置信度感知的姿态引导信号，大幅提升了帧间一致性，使得产生的视频在时序上能够做到平滑自然。
其次，通过放大置信度感知的区域损失，显著减少了图像失真，使得局部画面如人体手部细节得到了大幅改善。
最后，通过结合扩散过程的渐进式潜在特征融合策略，MimicMotion能够在有限的算力资源内生成无限长的视频同时保证画面连贯。

主要优势：

生成结果细节更清晰 (尤其是手部细节)；
生成视频时序平滑度更好，无明显闪烁；
能够生成长视频并且无明显跳变。

架构设计

MimicMotion模型的核心结构是一个带有U-Net的隐空间视频扩散模型，用于在隐空间中进行逐步去噪。输入视频帧的VAE编码器和相应的解码器用于获取去噪视频帧，这些部分都加载了Stable Video Diffusion (SVD)预训练参数并将其冻结。VAE编码器独立地应用于输入视频的每一帧以及条件参考图像，基于逐帧操作，不考虑时间或跨帧交互。不同的是，VAE解码器处理经过U-Net时空交互的隐特征。为了确保生成流畅的视频，VAE解码器在空间层外加入了时间层，以镜像VAE编码器的架构。

除了输入视频帧之外，参考图像和姿态序列是模型的另外两个输入。参考图像通过两个独立的路径输入到扩散模型中。一个路径是将图像输入到U-Net的每个模块中。具体来说，通过类似CLIP的视觉编码器，提取图像特征并将其输入到每个U-Net模块的交叉注意力中，以最终控制输出结果。另一个路径针对输入的隐特征。与原始视频帧类似，输入的参考图像使用相同的冻结VAE编码器进行编码，以在隐空间中获得其表示。然后，单个参考图像的隐特征沿着时间维度复制，以与输入视频帧的特征对齐。复制的隐参考图像与隐视频帧沿通道维度连接在一起，然后一起输入到U-Net中进行扩散。

为了引入姿态的指导，PoseNet被设计为一个可训练的模块，用于提取输入姿态序列的特征，它由多个卷积层实现。不使用VAE编码器的原因是姿态序列的像素值分布与VAE自编码器训练的普通图像不同。通过PoseNet提取姿态特征，然后逐元素地添加到U-Net第一个卷积层的输出中。这样，姿态指导的影响可以从去噪的一开始就发挥作用。

MimicMotion在生成多种形式的人体动作视频上均具有良好的结果，包括半身动作、全身动作以及谈话动作视频。相比现有的开源方案如MagicPose、Moore-AnimateAnyone等；

MimicMotion具有以下几点优势：

1. 生成结果细节更加丰富且清晰，包括人体手部细节；

2. 帧间连续性更加优秀，画面无明显跳变；

3. 支持平滑的长视频生成。

在量化指标评估实验中，MimicMotion相比现有开源方案MagicPose、Moore-AnimateAnyone以及MuseV，在FID-VID及FVD测试指标上均取得了领先。

考虑生成结果对于用户的直观感受，在由36位人员参与的用户调研中，MimicMotion获得了75.5%以上的优胜率。

官方网站：https://tencent.github.io/MimicMotion
代码仓库：https://github.com/Tencent/MimicMotion
论文地址：https://arxiv.org/abs/2406.19680

微信关注我们

原文链接：https://www.oschina.net/news/302358

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

在“古早”的苹果麦金塔电脑上运行 Windows NT，是怎样的体验？

国外开发者近日发布了名为「maciNTosh」的开源项目。根据介绍，该项目能够让搭载 PowerPC CPU 的 Power Macintosh 系列电脑成功运行 Windows NT 系统。 https://github.com/Wack0/maciNTosh 虽然微软几年前已经将 Windows NT 4.0 移植到 PowerPC 架构，但 Power Macintosh 并不使用 Windows NT 所需的相同固件。因此这些 PowerPC 版本的 Windows NT 系统仅支持采用 PowerPC CPU 的 IBM 和摩托罗拉电脑，对更为流行的苹果PowerPC 电脑的支持从未出现。 "maciNTosh" 目前只支持 Gossamer 架构下的 New World Power Macintosh 系统，即搭载 MPC106 “Grackle” 内存控制器、PCI 主机，以及 PCI 总线上 “Heathrow” 或 “Paddington” 超级 I/O 芯片的电脑。如果拥有以下其中一款 Power Macintosh 电脑，可以通过这个项目安装 Windows ...

2024-07-16

382

一、Disruptor的简介 Disruptor是基于事件异步驱动模型实现的，采用了RingBuffer数据结构，支持高并发、低延时、高吞吐量的高性能工作队列，它是由英国外汇交易公司LMAX开发的，研发的初衷是解决内存队列的延迟问题，不同于我们常用的分布式消息中间件RocketMQ、Kafaka，而Disruptor是单机的、本地内存队列，类似JDK的ArrayBlockingQueue等队列。 Disruptor的使用场景加密货币交易撮合引擎 Log4j2基于Disruptor实现的异步日志处理 Canal+Disruptor实现高效的数据同步知名开源框架Apache Strom 2010年在QCon的演讲，介绍了基于Disruptor开发的系统单线程能支撑每秒600万订单，由此可见该组件可以大幅提升系统的TPS，所以对于一些需要大幅提升单机应用的吞吐量的场景可以考虑使用Disruptor。 Disruptor和ArrayBlockingQueue性能对比 ArrayBlockingQueue是基于数组ArrayList实现的，通过ReentrantLock独占锁保证线程安全； ...

2024-07-16

407

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。