普林斯顿、字节跳动等联合发布首个多模态扩散大语言模型 MMaDA
普林斯顿大学、字节跳动 Seed、北大和清华等研究团队合作提出了多模态扩散大语言模型 MMaDA(Multimodal Large Diffusion Language Models),作为首个系统性探索扩散架构的多模态基础模型,MMaDA 通过三项核心技术突破,成功实现了文本推理、多模态理解与图像生成的统一建模。
该模型旨在实现跨文本和图像领域的深度思考和通用能力,并在文本推理、多模态理解和文本到图像生成等任务上展现超越现有模型(包括GPT-4、Gemini、SDXL)的表现。
- 论文标题:MMaDA: Multimodal Large Diffusion Language Models
- 论文链接:https://arxiv.org/abs/2505.15809
- 代码仓库:https://github.com/Gen-Verse/MMaDA
- 模型地址:https://huggingface.co/Gen-Verse/MMaDA-8B-Base
- Demo 地址:https://huggingface.co/spaces/Gen-Verse/MMaDA
MMaDA的核心创新包括:采用统一扩散架构,具有共享概率公式和模态无关设计,无需模态特有组件;引入混合长链式思考(Mixed Long CoT)微调策略,构建跨模态统一CoT格式,增强复杂任务处理能力;提出统一强化学习算法UniGRPO,专门针对扩散模型设计,通过多样化奖励建模统一推理和生成任务的后训练。
MMaDA-8B模型在文本推理(超越LLAMA-3-7B和Qwen2-7B)、多模态理解(优于Show-o和SEED-X)和文本到图像生成(超越SDXL和Janus,生成更准确、符合世界知识的图片)方面均取得优异成绩。模型采用统一的离散Token化策略处理文本和图像,并在基础预训练、混合长链式思考微调和UniGRPO强化学习三个阶段进行训练。
MMaDA天然支持图像修复(inpainting)和外推(extrapolation),无需额外微调。MMaDA的发布探索了基于扩散模型的通用基础模型设计空间,展示了扩散模型作为下一代多模态智能基础范式的潜力。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
xAI 发布 Live Search API,可实时联网搜索
xAI发布Live Search API Beta版,支持实时搜索X平台、互联网和新闻,整合Grok模型智能决策。该API现已进入免费Beta测试阶段,持续至2025年6月5日。 Live Search API通过Grok模型的深度整合,无需手动管理搜索逻辑,模型可根据任务自主决策是否需要搜索、何时搜索以及搜索什么。 API支持实时数据检索,覆盖X平台帖子、网页、新闻和RSS提要,确保信息时效性。开发者可通过简单的search_parameters配置进行调用,支持限定数据来源(如仅搜索X平台或特定域名)、日期范围、地区和结果数量(最高50条),实现高度定制化。Grok模型基于多模态推理能力,能解析复杂查询,自动提取关键词并匹配高质量数据源。 import os import requests url = "https://api.x.ai/v1/chat/completions" headers = { "Content-Type": "application/json", "Authorization": f"Bearer {os.getenv('XAI_API_...
- 下一篇
郭明錤:OpenAI 与 io 的 AI 硬件将在 2027 年上市
著名分析师郭明錤最近在一篇报告中透露,OpenAI 与科技公司 io 联合开发的新型 AI 硬件预计将在2027年进入量产阶段。这款硬件的设计相当小巧,外形略大于当前流行的 AI Pin,类似于经典的 iPod Shuffle,便于用户携带。值得一提的是,这款设备将会在越南进行组装,显示出制造业向东南亚转移的趋势。 根据郭明錤的描述,这款 AI 硬件具有多种用途,其中一种使用方式是将其挂在脖子上。这种便捷的佩戴方式不仅方便用户随时使用,还可能为人们的日常生活带来更多智能体验。随着 AI 技术的发展,这种新型设备有望为消费者提供更为智能化的服务,满足他们在生活、工作等多方面的需求。 此外,报告中还提到,全球科技公司对新兴市场的关注日益增加,尤其是在制造和组装领域,越南因其成本优势和政策支持,正逐渐成为重要的生产基地。随着这款新设备的推出,未来的科技产品可能会更具便携性和智能化,从而推动市场的进一步发展。
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Linux系统CentOS6、CentOS7手动修改IP地址
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS7设置SWAP分区,小内存服务器的救世主
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Hadoop3单机部署,实现最简伪集群
- MySQL8.0.19开启GTID主从同步CentOS8