普林斯顿、字节跳动等联合发布首个多模态扩散大语言模型 MMaDA
普林斯顿大学、字节跳动 Seed、北大和清华等研究团队合作提出了多模态扩散大语言模型 MMaDA(Multimodal Large Diffusion Language Models),作为首个系统性探索扩散架构的多模态基础模型,MMaDA 通过三项核心技术突破,成功实现了文本推理、多模态理解与图像生成的统一建模。
该模型旨在实现跨文本和图像领域的深度思考和通用能力,并在文本推理、多模态理解和文本到图像生成等任务上展现超越现有模型(包括GPT-4、Gemini、SDXL)的表现。
- 论文标题:MMaDA: Multimodal Large Diffusion Language Models
- 论文链接:https://arxiv.org/abs/2505.15809
- 代码仓库:https://github.com/Gen-Verse/MMaDA
- 模型地址:https://huggingface.co/Gen-Verse/MMaDA-8B-Base
- Demo 地址:https://huggingface.co/spaces/Gen-Verse/MMaDA
MMaDA的核心创新包括:采用统一扩散架构,具有共享概率公式和模态无关设计,无需模态特有组件;引入混合长链式思考(Mixed Long CoT)微调策略,构建跨模态统一CoT格式,增强复杂任务处理能力;提出统一强化学习算法UniGRPO,专门针对扩散模型设计,通过多样化奖励建模统一推理和生成任务的后训练。
MMaDA-8B模型在文本推理(超越LLAMA-3-7B和Qwen2-7B)、多模态理解(优于Show-o和SEED-X)和文本到图像生成(超越SDXL和Janus,生成更准确、符合世界知识的图片)方面均取得优异成绩。模型采用统一的离散Token化策略处理文本和图像,并在基础预训练、混合长链式思考微调和UniGRPO强化学习三个阶段进行训练。
MMaDA天然支持图像修复(inpainting)和外推(extrapolation),无需额外微调。MMaDA的发布探索了基于扩散模型的通用基础模型设计空间,展示了扩散模型作为下一代多模态智能基础范式的潜力。
