腾讯开源可控视频生成框架 MimicMotion
腾讯宣布开源可控视频生成框架 MimicMotion,该框架可以通过提供参考人像及由骨骼序列表示的动作,来产生平滑的高质量人体动作视频。
公告称,大量的实验结果和用户调研表明MimicMotion在各种方面都显著优于以往的方法。目前模型及配套代码均已开源。
与以往的方法相比,MimicMotion具有以下几个亮点:
- 首先,通过引入了置信度感知的姿态引导信号,大幅提升了帧间一致性,使得产生的视频在时序上能够做到平滑自然。
- 其次,通过放大置信度感知的区域损失,显著减少了图像失真,使得局部画面如人体手部细节得到了大幅改善。
-
最后,通过结合扩散过程的渐进式潜在特征融合策略,MimicMotion能够在有限的算力资源内生成无限长的视频同时保证画面连贯。
主要优势:
- 生成结果细节更清晰 (尤其是手部细节);
- 生成视频时序平滑度更好,无明显闪烁;
- 能够生成长视频并且无明显跳变。
架构设计
MimicMotion模型的核心结构是一个带有U-Net的隐空间视频扩散模型,用于在隐空间中进行逐步去噪。输入视频帧的VAE编码器和相应的解码器用于获取去噪视频帧,这些部分都加载了Stable Video Diffusion (SVD)预训练参数并将其冻结。VAE编码器独立地应用于输入视频的每一帧以及条件参考图像,基于逐帧操作,不考虑时间或跨帧交互。不同的是,VAE解码器处理经过U-Net时空交互的隐特征。为了确保生成流畅的视频,VAE解码器在空间层外加入了时间层,以镜像VAE编码器的架构。
除了输入视频帧之外,参考图像和姿态序列是模型的另外两个输入。参考图像通过两个独立的路径输入到扩散模型中。一个路径是将图像输入到U-Net的每个模块中。具体来说,通过类似CLIP的视觉编码器,提取图像特征并将其输入到每个U-Net模块的交叉注意力中,以最终控制输出结果。另一个路径针对输入的隐特征。与原始视频帧类似,输入的参考图像使用相同的冻结VAE编码器进行编码,以在隐空间中获得其表示。然后,单个参考图像的隐特征沿着时间维度复制,以与输入视频帧的特征对齐。复制的隐参考图像与隐视频帧沿通道维度连接在一起,然后一起输入到U-Net中进行扩散。
为了引入姿态的指导,PoseNet被设计为一个可训练的模块,用于提取输入姿态序列的特征,它由多个卷积层实现。不使用VAE编码器的原因是姿态序列的像素值分布与VAE自编码器训练的普通图像不同。通过PoseNet提取姿态特征,然后逐元素地添加到U-Net第一个卷积层的输出中。这样,姿态指导的影响可以从去噪的一开始就发挥作用。
MimicMotion在生成多种形式的人体动作视频上均具有良好的结果,包括半身动作、全身动作以及谈话动作视频。相比现有的开源方案如MagicPose、Moore-AnimateAnyone等;
MimicMotion具有以下几点优势:
1. 生成结果细节更加丰富且清晰,包括人体手部细节;
2. 帧间连续性更加优秀,画面无明显跳变;
3. 支持平滑的长视频生成。
在量化指标评估实验中,MimicMotion相比现有开源方案MagicPose、Moore-AnimateAnyone以及MuseV,在FID-VID及FVD测试指标上均取得了领先。
考虑生成结果对于用户的直观感受,在由36位人员参与的用户调研中,MimicMotion获得了75.5%以上的优胜率。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
在“古早”的苹果麦金塔电脑上运行 Windows NT,是怎样的体验?
国外开发者近日发布了名为「maciNTosh」的开源项目。根据介绍,该项目能够让搭载 PowerPC CPU 的 Power Macintosh 系列电脑成功运行 Windows NT 系统。 https://github.com/Wack0/maciNTosh 虽然微软几年前已经将 Windows NT 4.0 移植到 PowerPC 架构,但 Power Macintosh 并不使用 Windows NT 所需的相同固件。 因此这些 PowerPC 版本的 Windows NT 系统仅支持采用 PowerPC CPU 的 IBM 和摩托罗拉电脑,对更为流行的苹果PowerPC 电脑的支持从未出现。 "maciNTosh" 目前只支持 Gossamer 架构下的 New World Power Macintosh 系统,即搭载 MPC106 “Grackle” 内存控制器、PCI 主机,以及 PCI 总线上 “Heathrow” 或 “Paddington” 超级 I/O 芯片的电脑。 如果拥有以下其中一款 Power Macintosh 电脑,可以通过这个项目安装 Windows ...
- 下一篇
Disruptor 在撮合引擎的实践
一、Disruptor的简介 Disruptor是基于事件异步驱动模型实现的,采用了RingBuffer数据结构,支持高并发、低延时、高吞吐量的高性能工作队列,它是由英国外汇交易公司LMAX开发的,研发的初衷是解决内存队列的延迟问题,不同于我们常用的分布式消息中间件RocketMQ、Kafaka,而Disruptor是单机的、本地内存队列,类似JDK的ArrayBlockingQueue等队列。 Disruptor的使用场景 加密货币交易撮合引擎 Log4j2基于Disruptor实现的异步日志处理 Canal+Disruptor实现高效的数据同步 知名开源框架Apache Strom 2010年在QCon的演讲,介绍了基于Disruptor开发的系统单线程能支撑每秒600万订单,由此可见该组件可以大幅提升系统的TPS,所以对于一些需要大幅提升单机应用的吞吐量的场景可以考虑使用Disruptor。 Disruptor和ArrayBlockingQueue性能对比 ArrayBlockingQueue是基于数组ArrayList实现的,通过ReentrantLock独占锁保证线程安全; ...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS8编译安装MySQL8.0.19
- CentOS6,CentOS7官方镜像安装Oracle11G
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Red5直播服务器,属于Java语言的直播服务器
- CentOS6,7,8上安装Nginx,支持https2.0的开启