OpenAI Sora 关键技术详解：揭秘时空碎片 (Spacetime Patches) 技术

2024-02-22 479

编者按：近日，OpenAI发布其首个视频生成模型“Sora”，该模型生成的视频内容可以呈现出多个角色、特定动作以及复杂场景，为构建能够理解和模拟现实世界的人工智能模型奠定了基础。

本文解析的重点即是 Sora 背后的核心技术 Spacetime Patches，作者认为该技术通过创新的时空数据建模方法，让 Sora 学会预测时空维度上事件和对象的变化、运动和互动，从而建立起视频世界的物理模型，生成极其逼真的视频。

这确实是生成模型领域的里程碑，也是一个 AGI 的里程碑。编者相信，没准有一天，哆啦A梦的二次元口袋照相机也可能成为现实。

作者 | Vincent Koc

编译 | 岳扬

人工智能如何将静态图像转换为动态、逼真的视频？OpenAI的 Sora 通过创新性地使用时空碎片技术（spacetime patches）给出了一个答案。

在快速发展的生成模型领域，OpenAI 的 Sora [1]是一个重要的里程碑，有望重塑我们对视频生成的理解和认识。本文将解读 Sora 背后的技术[2]以期激发新一代模型在图像、视频和3D内容创建方面的潜力。

OpenAI 使用以下提示词生成生成了一段视频：A cat waking up its sleeping owner demanding breakfast. The owner tries to ignore the cat, but the cat tries new tactics and finally the owner pulls out a secret stash of treats from under the pillow to hold the cat off a little longer. —— 通过Sora生成的视频内容几乎达到了无以伦比的逼真程度。由于 Sora 正在进行测试，完整模型尚未完全向公众发布。

01 Sora 的独特方法如何改变视频生成的方式

在生成模型（generative models）领域的发展过程中，我们见证了从生成式对抗网络（GAN）到自回归（auto-regressive）和扩散模型（diffusion models）等多种方法的演变，它们都有各自的优势和局限性。Sora通过采用新的模型技术和凭借其高度灵活性带来了范式转变，能够处理多种多样的视频时长（duration）、宽高比（aspect ratio）和分辨率（resolution）。

Sora结合了扩散原理（diffusion）和 transformer 架构，提出了diffusion transformer model，并具有如下特性：

文字到视频：这种功能我们应该已经见到过很多次了
图像到视频：为静态图像赋予生命
视频到视频：将视频的风格转换为其他样式
修改视频时间：扩展和缩短视频
创建无缝循环视频：创建看起来无限循环的平铺视频（译者注：在视频编辑领域，Tile（平铺）是一个专业术语，指的是将一个视频片段复制并拼接，重复排列形成一个新的视频画面的技术。）
图像生成：虽然只是单帧静止画面，但是称得上一部“单帧电影”(分辨率高达2048 x 2048)
生成任何分辨率的视频：从1920 x 1080 到 1080 x 1920，应有尽有
模拟虚拟世界：像 Minecraft 和其他视频游戏
创建视频：最长1分钟，包含多个短视频

想象一下，你正在一个厨房里。像Pika[3]和RunwayML[4]这样的传统视频生成模型就像严格遵循食谱的厨师，他们能够制作美味佳肴（视频），但受限于他们所知的食谱（算法）。这些“厨师”可能专攻制作蛋糕（短视频）或意大利面（某类型视频），使用特定的“食材”（数据格式）和“烹调技术”（模型架构）。

相比之下，Sora像是全能大厨，对食品风味的构成与变化了如指掌。Sora不仅能遵循食谱，还持续创造新的菜式。 数据和模型架构的灵活性，让 Sora 能生产出一系列高质量的视频，堪比大师厨艺的多变与精湛。

02 探索 Sora 秘方的核心：Spacetime Patches 技术

Spacetime Patches 是 Sora 创新的核心，它建立在谷歌 DeepMind 早先对 NaViT [5]和 ViT（Vision Transformers）的研究基础之上，其基础是一篇 2021 年的论文《An Image is Worth 16x16 Words[6]》。

“Vanilla” Vision Transformer 架构 —— 图片来源：Dosovitskiy等，2021[6]

在传统的 Vision Transformers 中，我们使用一系列图像 "patches" 来训练模型进行图像识别，而不是像训练 language transformers 那样使用单词来进行训练。通过 "patches"，我们可以摆脱卷积神经网络对图像处理的束缚。

如何将帧/图像划分为 patches —— 图片来源：Dehghani等，2023[5]

然而，Vision transformers 受到图像训练数据的限制，这些数据的大小和长宽比都是固定的，这就限制了图像的质量，并需要对图像进行大量的预处理。

切割视频时态数据的可视化 —— 资料来源：kitasenjudesign[7]

通过将视频处理为 patches 序列，Sora保持了原始的长宽比和分辨率，这与 NaViT 处理图像的方式类似。这种保留对于捕捉视觉数据的真实本质至关重要，可使模型从更准确的世界表征中学习，从而赋予Sora其近乎魔法的准确性。

Spacetime Patching 处理过程的可视化 —— 图片来源：OpenAI（Sora）

通过这种方法，Sora 可以高效地处理各种视觉数据，而无需调整大小或进行填充等预处理步骤。这种灵活性确保了每一条数据都有助于模型的理解，就像厨师使用各种配料来提升菜肴的风味一样。

通过 Spacetime Patching 技术详细而灵活地处理视频数据，为Sora拥有精确的物理模拟和三维一致性等复杂特性奠定了基础。 这些能力对于创建不仅看起来逼真，而且符合世界物理规则的视频至关重要，让我们看到了人工智能创建复杂、动态视觉内容的潜力。

03 喂养Sora：多样化数据在训练中的作用

生成模型的表现与训练数据的质量和多样性密不可分。 现有的视频模型传统上是在更受限的数据集上训练的，时长较短，目标较窄。

Sora的训练数据集广泛多样，包含不同长度、分辨率和长宽比的视频与图像。其重现 Minecraft 等数字世界的能力[8]，极有可能吸收了来自Unity、Unreal等系统的模拟镜头数据，以捕捉更丰富视角和风格的视频内容。这让Sora类似GPT语言模型，达到视频生成的“全能”境界。

丰富数据训练使Sora能够深刻理解复杂动力学，生成既多样又高质量的内容。 这种方法模仿了大语言模型在多样化文本上的训练方式，将类似理念应用于视觉数据，以获得通用能力。

使用可变 patches 的 NaVit vs. 传统的 Vision Transformers —— 图片来源：Dehghani等，2023[5]

正如 NaViT 模型通过将来自不同图像的多个 patches 打包到单个序列中，能够显著提高训练效率和性能一样，Sora 利用时空碎片（Spacetime Patching）实现了在视频生成场景中类似的生成效率。这种方法可以更有效地学习庞大的数据集，提高模型生成高保真视频的能力，同时与现有模型架构相比还可以显著降低所需的计算量。

04 让模拟的物理世界栩栩如生：Sora 对三维空间和视频连贯性的掌控

三维空间以及物体的运动和互动具有逻辑性和一致性是 Sora 演示中的一大亮点。通过对大量视频数据进行训练，而不对视频进行调整或预处理，Sora 可以学习对物理世界进行建模，而且其准确性令人印象深刻，因为它能够以原始形式消化训练数据。

它能生成数字世界和视频，在这些视频中，其中的物体和角色在三维空间中移动和互动，即使在它们被遮挡或离开画面时也能保持连贯性，令人信服。

05 展望未来：Sora对生成模型的启示

Sora为生成模型树立一种新的高标准。这种技术极有可能激发开源社区继续探索视觉生成领域的新边界，驱动新一代生成模型的发展，打破创造力和内容真实性的限制。

Sora 的征程才刚刚开始，正如 OpenAI 所说： “扩大视频生成模型的规模是建立物理世界通用模拟器的一条大有可为的道路。”

Sora技术与最新的AI研究和实践应用的融合，预示着生成模型的光明前景。随着这些技术的持续演化，必将重新定义我们与数字内容的互动，使高保真、动态视频生成变得更加便捷和多样。

Thanks for reading!

END

参考资料

[1]https://openai.com/sora

[2]https://openai.com/research/video-generation-models-as-world-simulators

[3]https://pika.art/home

[4]https://runwayml.com/ai-tools/gen-2/

[5]https://arxiv.org/abs/2307.06304

[6]https://arxiv.org/abs/2010.11929

[7]https://twitter.com/kitasenjudesign/status/1489260985135157258

[8]https://techcrunch.com/2024/02/15/openais-sora-video-generating-model-can-render-video-games-too/

原文链接：

https://towardsdatascience.com/explaining-openai-soras-spacetime-patches-the-key-ingredient-e14e0703ec5b

微信关注我们

原文链接：https://my.oschina.net/IDP/blog/11044384

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

百万并发，API 网关抗住了亚运会流量高峰

1.背景 2023 年杭州亚运会给大家留下了美好的回忆，当时各种线上线下的活动和赛事也将如火如荼地展开，与亚运会相关的应用和服务迎来流量高峰。作为亚运会所有核心流量的入口，阿里云 API 网关的重要性不言而喻。为了确保 API 网关能够稳定、高效地处理大量的并发请求，阿里云推出了一款百万并发规格的 API 网关，为亚运会提供强大的技术支持。百万并发规格的 API 网关，是我们专门针对高并发场景进行优化和升级的产品。它采用了先进的技术架构和算法，能够有效地处理大量的并发请求，保证 API 网关的稳定性和可靠性。同时，它还支持 API 级别的流控、热点数据缓存、多种安全机制，包括 API 授权与鉴权、流量控制等，能够有效地保护亚运相关业务系统的平稳运行。 API 网关将所有经过 API 网关的调用日志同步到用户自己的 SLS 日志服务中去，通过 SLS 日志服务可以进行实时日志查询、下载、多维度统计分析等，并且可以配置基于日志的报警策略；API 会自动将调用日志同步给阿里云云监控产品，用户可以在云监控产品上直接配置报警规则，监控报警的指标包括：Http 应答码，API 响应时间，请求次数...

2024-02-22

376

MySQL高可用的基石在分布式系统中，单机节点在发生故障时无法提供服务，这可能导致长期的服务不可用，从而影响其他节点的运作，导致的后果非常严重为了满足服务的高可用，往往是通过节点冗余（新增相同功能的从节点），当发生故障时进行主从切换，让从节点成为新的主节点来继续提供服务比如：MySQL的主从、Redis的主从、MQ broker的主从...思想大体类似的作为高可用的基石——主从架构功不可没，本篇文章就来聊聊MySQL的主从的一些细节 binlog binlog作为逻辑上恢复数据的日志，是主从数据同步、数据恢复的基础 binlog分为三种格式：statement、row、mixed statement ：记录写操作的SQL，语句轻量、传输快，使用该格式可能会导致数据不一致（因为从机与主机所处的环境不同，比如从机时间与主机不同时，使用now()函数） row ：记录数据的修改，数据量大、传输慢，误操作时可以恢复数据（反向操作），主从同步时数据一致 mixed ：结合statement、row的优点，自动混合选择格式大多数情况下都是选择格式为row，因为数据一致并且可以恢复数据 ...

2024-02-22

540

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。