快手可灵&港大提出 Context-as-Memory,上下文记忆力媲美 Genie3 且问世更早
香港大学和快手可灵团队近日联合发表论文《Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval》,提出一种创新性方法:将历史生成的上下文作为“记忆”(即Context-as-Memory),通过context learning 技术学习上下文条件,从而实现对长视频前后场景一致性的有效控制。研究发现:视频生成模型能够隐式学习视频数据中的 3D 先验,无需显式 3D 建模辅助,这一理念与 Genie 3 不谋而合。
为了高效利用理论上可无限延长的历史帧序列,论文还提出了基于相机轨迹视场(FOV)的记忆检索机制(Memory Retrieval),从全部历史帧中筛选出与当前生成视频高度相关的帧作为记忆条件,大幅提升视频生成的计算效率并降低训练成本。
在数据构建上,研究团队基于 Unreal Engine 5 收集了多样化场景、带有精确相机轨迹标注的长视频,用于充分训练和测试上述技术。用户只需提供一张初始图像,即可沿设定的相机轨迹自由探索生成的虚拟世界。
根据介绍,Context as Memory可以在几十秒的时间尺度下保持原视频中的静态场景记忆力,并在不同场景有较好的泛化性。Context as Memory 方法旨在实现无需显式三维建模的场景一致的长视频生成。该方法的核心创新包括:
- 提出了 Context as Memory 方法,强调将历史生成的上下文作为记忆,无需显式3D建模即可实现场景一致的长视频生成。
- 设计了Memory Retrieval方法,采用基于视场(FOV)重叠的相机轨迹规则进行动态检索,显著减少了需要学习的上下文数量,从而提高了模型训练与推理效率。
- 实验结果表明,Context as Memory在长视频生成中的场景记忆力表现优越,显著超越了现有的SOTA方法,并且能够在未见过的开放域场景中保持记忆。
如上图(a)所示,Context-as-Memory的长视频生成是通过基于Context learning的视频自回归生成来实现的,其中,所有历史生成的视频帧作为context,它们被视为记忆力的载体。
如上图(b)所示,为了避免将所有历史帧纳入计算所带来的过高计算开销,提出了Memory Retrieval模块。该模块通过根据相机轨迹的视场(FOV)来判断预测帧与历史帧之间的重叠关系,从而动态筛选出与预测视频最相关的历史帧作为记忆条件。此方法显著减少了需要学习的上下文数量,大幅提高了模型训练和推理的效率。
在实验中,研究者将 Context-as-Memory 与最先进的方法进行了比较,结果表明,Context-as-Memory 在长视频生成的场景记忆力方面,相较于这些方法,表现出了显著的性能提升。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
微软分享有关开源 Windows 11 UI 的新细节
本月初, 微软公布了有关开源Windows 11 用户界面框架 WinUI 的细节。开源 WinUI 一直是开发者们的长期呼声,但实现起来并非轻而易举。由于 WinUI 在操作系统的专有层面“根深蒂固”,开源该框架需要谨慎且深思熟虑的方法。在首次发布几周后, 微软准备分享更多关于 WinUI OSS 项目的信息。 微软希望分四个阶段完成这项任务。第一阶段主要是在 GitHub 上提供更多内部贡献。第二阶段将允许开发人员克隆存储库并在本地构建 WinUI。第三阶段将允许第三方开发人员为该项目做出贡献,最后阶段将 GitHub 设为“开发、问题跟踪和社区参与的主要场所”,并逐步淘汰内部存储库。 目前, 微软开发人员正忙于将 WinUI 从 Windows 中无法公开共享的专有部分中“解开”。一旦 Windows App SDK 1.8 于本月晚些时候发布(目前处于预览阶段,WinUI 与 WASDK 绑定),开发人员将开始在 GitHub 上实施拉取请求。 微软计划在 2025 年 10 月初完成第一阶段。 至于允许第三方开发者克隆代码库并在本地构建,微软表示目前正在“积极探索”这个想法。...
- 下一篇
谷歌 NotebookLM 升级:支持 80 种语言的视频与音频概述
谷歌宣布其 AI 研究助手 NotebookLM 迎来重大更新,其 “Video Overviews(视频概述)” 功能现已支持 80 种语言(包括简体中文),并同步升级了 Audio Overviews(音频概述)。Video Overviews 最初于 7 月推出,此次更新后,全球用户可用本地语言生成笔记本内容的视频摘要。 此次升级的核心亮点如下: 视频概述扩展至 80 种语言:NotebookLM 的 AI 讲解视频功能现已面向全球用户,支持多达 80 种语言。用户可将笔记内容自动生成带有画面和解说的视频,更适合需要视觉化学习或分享的场景。 音频概述全面升级:原本仅提供简短亮点的 “音频概述” 如今扩展为完整版本,覆盖与英文版同等质量的连贯讲解,并同步支持多语言。这意味着无论用户选择何种语言,都能获得深度的音频总结体验。 内容更长,生成更灵活:Google 同时强化了 NotebookLM 的 Studio 面板。用户现在可在一个笔记本中生成多个不同版本的音频或视频概述,以满足不同受众与学习目标的需求。 从最初的 “播客式音频总结” 到如今支持图表、网页、幻灯片甚至视频讲解,No...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Hadoop3单机部署,实现最简伪集群
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- 设置Eclipse缩进为4个空格,增强代码规范
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Red5直播服务器,属于Java语言的直播服务器
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS7,8上快速安装Gitea,搭建Git服务器