您现在的位置是:首页 > 文章详情

普林斯顿、字节跳动等联合发布首个多模态扩散大语言模型 MMaDA

日期:2025-05-23点击:428

普林斯顿大学、字节跳动 Seed、北大和清华等研究团队合作提出了多模态扩散大语言模型 MMaDA(Multimodal Large Diffusion Language Models),作为首个系统性探索扩散架构的多模态基础模型,MMaDA 通过三项核心技术突破,成功实现了文本推理、多模态理解与图像生成的统一建模。

该模型旨在实现跨文本和图像领域的深度思考和通用能力,并在文本推理、多模态理解和文本到图像生成等任务上展现超越现有模型(包括GPT-4、Gemini、SDXL)的表现。

MMaDA的核心创新包括:采用统一扩散架构,具有共享概率公式和模态无关设计,无需模态特有组件;引入混合长链式思考(Mixed Long CoT)微调策略,构建跨模态统一CoT格式,增强复杂任务处理能力;提出统一强化学习算法UniGRPO,专门针对扩散模型设计,通过多样化奖励建模统一推理和生成任务的后训练。

MMaDA-8B模型在文本推理(超越LLAMA-3-7B和Qwen2-7B)、多模态理解(优于Show-o和SEED-X)和文本到图像生成(超越SDXL和Janus,生成更准确、符合世界知识的图片)方面均取得优异成绩。模型采用统一的离散Token化策略处理文本和图像,并在基础预训练、混合长链式思考微调和UniGRPO强化学习三个阶段进行训练。

MMaDA天然支持图像修复(inpainting)和外推(extrapolation),无需额外微调。MMaDA的发布探索了基于扩散模型的通用基础模型设计空间,展示了扩散模型作为下一代多模态智能基础范式的潜力。

原文链接:https://www.oschina.net/news/351372
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章