普林斯顿、字节跳动等联合发布首个多模态扩散大语言模型 MMaDA
普林斯顿大学、字节跳动 Seed、北大和清华等研究团队合作提出了多模态扩散大语言模型MMaDA(Multimodal Large Diffusion Language Models),作为首个系统性探索扩散架构的多模态基础模型,MMaDA 通过三项核心技术突破,成功实现了文本推理、多模态理解与图像生成的统一建模。 该模型旨在实现跨文本和图像领域的深度思考和通用能力,并在文本推理、多模态理解和文本到图像生成等任务上展现超越现有模型(包括GPT-4、Gemini、SDXL)的表现。 论文标题:MMaDA: Multimodal Large Diffusion Language Models 论文链接:https://arxiv.org/abs/2505.15809 代码仓库:https://github.com/Gen-Verse/MMaDA 模型地址:https://huggingface.co/Gen-Verse/MMaDA-8B-Base Demo 地址:https://huggingface.co/spaces/Gen-Verse/MMaDA MMaDA的核心创新包括:采用统一扩散...
