OpenMOSS 团队发布高性能开源音视频生成模型:MOVA
上海创智学院 OpenMOSS 团队联合初创公司模思智能(MOSI)正式发布并开源 MOVA(MOSS-Video-and-Audio),这是一个功能强大的多模态基础模型,专为高保真、同步的视频音频合成而设计。 据介绍,MOVA 是中国首个高性能开源音视频模型,实现端到端音画同出,打破 Sora2、Veo3 等闭源技术垄断。MOVA 可生成长 8 秒、最高 720p 视听片段,在多语言口型同步、环境音效契合度上达工业水准。其全栈开源模型权重、训练及推理代码,补全音视频生成开源拼图。技术采用异构双塔架构与跨模态时间对齐机制,搭配多阶段数据管线和训练策略,保障音画精准共鸣。 MOVA 模型架构如下: 实验显示,MOVA 口型同步指标领先 LTX-2 等开源模型,竞技场 ELO 评分 1113.8,胜率超 50%。目前 MOVA 已支持昇腾等硬件,降低使用门槛,推动音视频生成开源共创,助力多模态基础模型发展。 如需进一步了解技术细节或获取代码,可访问项目主页(https://mosi.cn/models/mova)或 GitHub 仓库(htt...

