快手可灵&港大提出 Context-as-Memory，上下文记忆力媲美 Genie3 且问世更早-低调大师

快手可灵&港大提出 Context-as-Memory，上下文记忆力媲美 Genie3 且问世更早

2025-08-26 120

香港大学和快手可灵团队近日联合发表论文《Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval》，提出一种创新性方法：将历史生成的上下文作为“记忆”（即Context-as-Memory），通过context learning 技术学习上下文条件，从而实现对长视频前后场景一致性的有效控制。研究发现：视频生成模型能够隐式学习视频数据中的 3D 先验，无需显式 3D 建模辅助，这一理念与 Genie 3 不谋而合。

为了高效利用理论上可无限延长的历史帧序列，论文还提出了基于相机轨迹视场（FOV）的记忆检索机制（Memory Retrieval），从全部历史帧中筛选出与当前生成视频高度相关的帧作为记忆条件，大幅提升视频生成的计算效率并降低训练成本。

在数据构建上，研究团队基于 Unreal Engine 5 收集了多样化场景、带有精确相机轨迹标注的长视频，用于充分训练和测试上述技术。用户只需提供一张初始图像，即可沿设定的相机轨迹自由探索生成的虚拟世界。

根据介绍，Context as Memory可以在几十秒的时间尺度下保持原视频中的静态场景记忆力，并在不同场景有较好的泛化性。Context as Memory 方法旨在实现无需显式三维建模的场景一致的长视频生成。该方法的核心创新包括：

提出了 Context as Memory 方法，强调将历史生成的上下文作为记忆，无需显式3D建模即可实现场景一致的长视频生成。
设计了Memory Retrieval方法，采用基于视场（FOV）重叠的相机轨迹规则进行动态检索，显著减少了需要学习的上下文数量，从而提高了模型训练与推理效率。
实验结果表明，Context as Memory在长视频生成中的场景记忆力表现优越，显著超越了现有的SOTA方法，并且能够在未见过的开放域场景中保持记忆。

如上图（a）所示，Context-as-Memory的长视频生成是通过基于Context learning的视频自回归生成来实现的，其中，所有历史生成的视频帧作为context，它们被视为记忆力的载体。

如上图（b）所示，为了避免将所有历史帧纳入计算所带来的过高计算开销，提出了Memory Retrieval模块。该模块通过根据相机轨迹的视场（FOV）来判断预测帧与历史帧之间的重叠关系，从而动态筛选出与预测视频最相关的历史帧作为记忆条件。此方法显著减少了需要学习的上下文数量，大幅提高了模型训练和推理的效率。

在实验中，研究者将 Context-as-Memory 与最先进的方法进行了比较，结果表明，Context-as-Memory 在长视频生成的场景记忆力方面，相较于这些方法，表现出了显著的性能提升。

微信关注我们

原文链接：https://www.oschina.net/news/368496

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

微软分享有关开源 Windows 11 UI 的新细节

本月初，微软公布了有关开源Windows 11 用户界面框架 WinUI 的细节。开源 WinUI 一直是开发者们的长期呼声，但实现起来并非轻而易举。由于 WinUI 在操作系统的专有层面“根深蒂固”，开源该框架需要谨慎且深思熟虑的方法。在首次发布几周后，微软准备分享更多关于 WinUI OSS 项目的信息。微软希望分四个阶段完成这项任务。第一阶段主要是在 GitHub 上提供更多内部贡献。第二阶段将允许开发人员克隆存储库并在本地构建 WinUI。第三阶段将允许第三方开发人员为该项目做出贡献，最后阶段将 GitHub 设为“开发、问题跟踪和社区参与的主要场所”，并逐步淘汰内部存储库。目前，微软开发人员正忙于将 WinUI 从 Windows 中无法公开共享的专有部分中“解开”。一旦 Windows App SDK 1.8 于本月晚些时候发布（目前处于预览阶段，WinUI 与 WASDK 绑定），开发人员将开始在 GitHub 上实施拉取请求。微软计划在 2025 年 10 月初完成第一阶段。至于允许第三方开发者克隆代码库并在本地构建，微软表示目前正在“积极探索”这个想法。...

2025-08-26

92

谷歌宣布其 AI 研究助手 NotebookLM 迎来重大更新，其 “Video Overviews（视频概述）” 功能现已支持 80 种语言（包括简体中文），并同步升级了 Audio Overviews（音频概述）。Video Overviews 最初于 7 月推出，此次更新后，全球用户可用本地语言生成笔记本内容的视频摘要。此次升级的核心亮点如下：视频概述扩展至 80 种语言：NotebookLM 的 AI 讲解视频功能现已面向全球用户，支持多达 80 种语言。用户可将笔记内容自动生成带有画面和解说的视频，更适合需要视觉化学习或分享的场景。音频概述全面升级：原本仅提供简短亮点的 “音频概述” 如今扩展为完整版本，覆盖与英文版同等质量的连贯讲解，并同步支持多语言。这意味着无论用户选择何种语言，都能获得深度的音频总结体验。内容更长，生成更灵活：Google 同时强化了 NotebookLM 的 Studio 面板。用户现在可在一个笔记本中生成多个不同版本的音频或视频概述，以满足不同受众与学习目标的需求。从最初的 “播客式音频总结” 到如今支持图表、网页、幻灯片甚至视频讲解，No...

2025-08-26

125

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。