美团 LongCat 团队发布 LongCat-Video 探索世界模型
美团LongCat团队正式发布LongCat-Video视频生成模型,旨在以视频生成路径探索“世界模型”,为自动驾驶、具身智能等场景夯实技术基础。
该模型基于DiT架构,以“条件帧数量”区分任务,原生支持文生、图生视频及视频续写,形成任务闭环。可生成720p/30fps高清内容,原生支持5分钟级长视频输出,通过多重技术规避时序与物理合理性问题;经三重优化提升推理效率10.1倍。
其136亿参数基座模型在文生、图生视频任务中达开源SOTA,VBench等测试表现优异。通过全面的评估显示,LongCat-Video 通用性能优秀,综合能力跻身开源 SOTA:
-
136 亿参数的视频生成基座模型,在文生视频、图生视频两大核心任务中,综合性能均达到当前开源领域 SOTA 级别;
-
通过文本-视频对齐、视觉质量、运动质量、整体质量四大维度评估,其性能在文本对齐度、运动连贯性等关键指标上展现显著优势;
模型已开源至GitHub、Hugging Face等平台,供开发者使用。
GitHub:https://github.com/meituan-longcat/LongCat-Video
Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Video
Project Page:https://meituan-longcat.github.io/LongCat-Video/



