LongCat-Video 视频生成模型正式发布,探索世界模型的第一步
要让人工智能真正理解、预测甚至重构真实世界,"世界模型"(World Model)已成为通往下一代智能的核心引擎。作为能够建模物理规律、时空演化与场景逻辑的智能系统,世界模型赋予AI"看见"世界运行本质的能力。而视频生成模型有望成为构建世界模型的关键路径------通过视频生成任务压缩几何、语义、物理等多种形式的知识,AI得以在数字空间中模拟、推演乃至预演真实世界的运行。
基于这一关键目标,美团 LongCat 团队正式发布 LongCat-Video 视频生成模型 ------ 不仅以统一模型在文生、图生视频基础任务上达到开源最先进水平,更依托原生视频续写任务预训练,实现分钟级长视频连贯生成,从根源上保障跨帧时序一致性与物理运动合理性,尤其在长视频生成领域具备显著优势。
作为一款视频生成模型,LongCat-Video 凭借其精准重构真实世界运行状态的能力,正在成为美团探索世界模型的第一步,也是关键的一步。同时,这也为后续支撑更多自动驾驶、具身智能等深度交互业务场景,夯实了技术基础。
技术亮点
统一模型架构:多任务一体化视频基座
作为基于 Diffusion Transformer(DiT)架构的多功能统一视频生成基座,LongCat-Video 创新通过 "条件帧数量" 实现任务区分 ------ 文生视频无需条件帧、图生视频输入 1 帧参考图、视频续写依托多帧前序内容,原生支持三大核心任务且无需额外模型适配,形成 "文生 / 图生 / 视频续写" 完整任务闭环。
- 文生视频:可生成 720p、30fps 高清视频,能精准解析文本中物体、人物、场景、风格等细节指令,语义理解与视觉呈现能力达开源 SOTA 级别。
- 图生视频:严格保留参考图像的主体属性、背景关系与整体风格,动态过程符合物理规律,支持详细指令、简洁描述、空指令等多类型输入,内容一致性与动态自然度表现优异。
- 视频续写:视频续写是LongCat Video的核心差异化能力,可基于多帧条件帧续接视频内容,为长视频生成提供原生技术支撑。
备注:相关视频生成效果请移步 项目主页 查看。
长视频生成:原生支持5分钟级连贯输出
依托视频续写任务预训练、Block-Causual Attention 机制和 GRPO 后训练,LongCat-Video 可稳定输出5分钟级别的长视频,且无质量损失,达到行业顶尖水平。同时,从根源规避色彩漂移、画质降解、动作断裂等行业痛点,保障跨帧时序一致性与物理运动合理性,完美适配数字人、具身智能、世界模型等需要长时序动态模拟的场景需求。
同时,模型结合块稀疏注意力(BSA)与条件 token 缓存机制,大幅降低长视频推理冗余 ------ 即便处理 93 帧及以上长序列,仍能兼顾效率与生成质量稳定,打破长视频生成 "时长与质量不可兼得" 的瓶颈。
高效推理:二阶段生成+稀疏注意力+模型蒸馏优化
针对高分辨率、高帧率视频生成的计算瓶颈,LongCat-Video 通过 "二阶段粗到精生成(C2F)+ 块稀疏注意力(BSA)+ 模型蒸馏" 三重优化,视频推理速度提升至10.1倍,实现效率与质量的最优平衡:
- 二阶段粗到精生成(C2F):先生成 480p、15fps 低分辨率视频,再经 LoRA 精调模块超分至 720p、30fps,在降本提效的同时优化画面细节;
- 块稀疏注意力(BSA):将 3D 视觉 token 分块后,仅选取 top-r 关键块计算注意力,使计算量降至标准密集注意力的 10% 以下;支持稀疏注意力适配并行训练,进一步提升大模型训练与推理效率;
- 模型蒸馏优化:结合 Classifier-Free Guidance(CFG)与一致性模型(CM)蒸馏,将采样步骤从 50 步减至 16 步。
模型性能
LongCat-Video 的模型评估围绕内部基准测试 和公开基准测试展开,覆盖 Text-to-Video(文本生成视频)、Image-to-Video(图像生成视频)两大核心任务,从多维度(文本对齐、图像对齐、视觉质量、运动质量、整体质量)验证模型性能:

通过全面的评估显示,LongCat-Video 通用性能优秀,综合能力跻身开源 SOTA:
- 136 亿参数的视频生成基座模型,在文生视频、图生视频两大核心任务中,综合性能均达到当前开源领域 SOTA 级别;
- 通过文本-视频对齐、视觉质量、运动质量、整体质量四大维度评估,其性能在文本对齐度、运动连贯性等关键指标上展现显著优势;
- 在 VBench 等公开基准测试中,LongCat-Video 在参评模型中整体表现优异。
开启你的长视频创作之旅
- GitHub :https://github.com/meituan-longcat/LongCat-Video
- Hugging Face :https://huggingface.co/meituan-longcat/LongCat-Video
- Project Page :https://meituan-longcat.github.io/LongCat-Video/
| 关注「美团技术团队」微信公众号,在公众号菜单栏对话框回复【2024年货】、【2023年货】、【2022年货】、【2021年货】、【2020年货】、【2019年货】、【2018年货】、【2017年货】等关键词,可查看美团技术团队历年技术文章合集。
| 本文系美团技术团队出品,著作权归属美团。欢迎出于分享和交流等非商业目的转载或使用本文内容,敬请注明"内容转载自美团技术团队"。本文未经许可,不得进行商业性转载或者使用。任何商用行为,请发送邮件至 tech@meituan.com 申请授权。
关注公众号
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
AIO Sandbox:为 AI Agent 打造的一体化、可定制的沙箱环境
文章来源|字节跳动 Web Infra x veFaas团队 项目地址|github.com/agent-infra/sandbox 引言:AI Agent 在执行复杂任务时,常需在浏览器、代码执行、文件系统之间切换。传统多沙箱方案面临环境割裂、数据搬运、鉴权复杂等问题。AIO Sandbox 通过一个 Docker 镜像整合所有能力,提供统一文件系统与鉴权,并支持镜像定制,提升了 Agent 任务执行与交付效率。 01 背景 随着 LLM 的持续演进,AI 的应用形态经历了三代跃迁: Chatbot:对话式交互,回答问题 Copilot:辅助协作,提升效率 Agent:自主执行,完成任务 Agent 能够自主感知环境、规划步骤、调用工具,能够像人类一样操作计算机:自动浏览网页收集信息、生成并运行代码分析数据、执行系统命令管理文件,甚至通过可视化界面完成复杂的多步骤操作。这种能力使 Agent 的交付成果接近甚至超越人类专业水准。 痛点 🧩 环境割裂:多个单功能沙盒(如 E2B 支持代码执行,Browserbase 支持浏览器)迫使 Agent 通过 NAS/OSS 跨沙箱传输数据,...
-
下一篇
清理祖传 AK 不怕炸锅:基于 UModel 的云监控 2.0 身份凭证观测实践
作者:羿莉 你真的了解你的 AccessKey 吗? 在云时代,AccessKey(AK)、Role(角色)是企业在云上进行身份认证和资源操作的"数字钥匙"。它们被广泛用于各种自动化工具、应用程序和 CI/CD 流程中。然而,随着业务的快速发展,AK、Role 的数量可能迅速膨胀,其使用情况也变得越来越复杂。 从一个常见的任务说起:清理"祖传"身份凭证 一个普普通通的下午,你的团队接到了一个任务:出于安全合规或成本优化的考虑,需要梳理并清理掉一批可能不再使用的 AccessKey(AK)和 RAM 角色。 你看着列表里一长串的AK和ARN,眉头一紧,脑子里立刻冒出好几个问题: 这个 AK 是哪个应用或脚本在用?文档里没写... 这个 RAM 角色最近被谁扮演过?它用临时权限都干了什么? 它们上次活动是什么时候?一个月前?还是一年前? 我现在直接禁用它,线上的业务会"炸"吗? 这些问题,如果只能靠"猜"和"回忆",那每一次身份凭证管理都像是一场赌博。我们需要的不是猜测,而是基于数据的确凿证据。而 传统的 AK 管理方式往往是割裂的、被动的,缺乏全局的可观测性,这在日益复杂的云环境中无疑是...
相关文章
文章评论
共有0条评论来说两句吧...





微信收款码
支付宝收款码