普林斯顿、字节跳动等联合发布首个多模态扩散大语言模型 MMaDA-低调大师

普林斯顿、字节跳动等联合发布首个多模态扩散大语言模型 MMaDA

2025-05-23 712

普林斯顿大学、字节跳动 Seed、北大和清华等研究团队合作提出了多模态扩散大语言模型 MMaDA（Multimodal Large Diffusion Language Models），作为首个系统性探索扩散架构的多模态基础模型，MMaDA 通过三项核心技术突破，成功实现了文本推理、多模态理解与图像生成的统一建模。

该模型旨在实现跨文本和图像领域的深度思考和通用能力，并在文本推理、多模态理解和文本到图像生成等任务上展现超越现有模型（包括GPT-4、Gemini、SDXL）的表现。

论文标题：MMaDA: Multimodal Large Diffusion Language Models
论文链接：https://arxiv.org/abs/2505.15809
代码仓库：https://github.com/Gen-Verse/MMaDA
模型地址：https://huggingface.co/Gen-Verse/MMaDA-8B-Base
Demo 地址：https://huggingface.co/spaces/Gen-Verse/MMaDA

MMaDA的核心创新包括：采用统一扩散架构，具有共享概率公式和模态无关设计，无需模态特有组件；引入混合长链式思考（Mixed Long CoT）微调策略，构建跨模态统一CoT格式，增强复杂任务处理能力；提出统一强化学习算法UniGRPO，专门针对扩散模型设计，通过多样化奖励建模统一推理和生成任务的后训练。

MMaDA-8B模型在文本推理（超越LLAMA-3-7B和Qwen2-7B）、多模态理解（优于Show-o和SEED-X）和文本到图像生成（超越SDXL和Janus，生成更准确、符合世界知识的图片）方面均取得优异成绩。模型采用统一的离散Token化策略处理文本和图像，并在基础预训练、混合长链式思考微调和UniGRPO强化学习三个阶段进行训练。

MMaDA天然支持图像修复（inpainting）和外推（extrapolation），无需额外微调。MMaDA的发布探索了基于扩散模型的通用基础模型设计空间，展示了扩散模型作为下一代多模态智能基础范式的潜力。

微信关注我们

原文链接：https://www.oschina.net/news/351372

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

xAI 发布 Live Search API，可实时联网搜索

xAI发布Live Search API Beta版，支持实时搜索X平台、互联网和新闻，整合Grok模型智能决策。该API现已进入免费Beta测试阶段，持续至2025年6月5日。 Live Search API通过Grok模型的深度整合，无需手动管理搜索逻辑，模型可根据任务自主决策是否需要搜索、何时搜索以及搜索什么。 API支持实时数据检索，覆盖X平台帖子、网页、新闻和RSS提要，确保信息时效性。开发者可通过简单的search_parameters配置进行调用，支持限定数据来源（如仅搜索X平台或特定域名）、日期范围、地区和结果数量（最高50条），实现高度定制化。Grok模型基于多模态推理能力，能解析复杂查询，自动提取关键词并匹配高质量数据源。 import os import requests url = "https://api.x.ai/v1/chat/completions" headers = { "Content-Type": "application/json", "Authorization": f"Bearer {os.getenv('XAI_API_...

2025-05-23

586

著名分析师郭明錤最近在一篇报告中透露，OpenAI 与科技公司 io 联合开发的新型 AI 硬件预计将在2027年进入量产阶段。这款硬件的设计相当小巧，外形略大于当前流行的 AI Pin，类似于经典的 iPod Shuffle，便于用户携带。值得一提的是，这款设备将会在越南进行组装，显示出制造业向东南亚转移的趋势。根据郭明錤的描述，这款 AI 硬件具有多种用途，其中一种使用方式是将其挂在脖子上。这种便捷的佩戴方式不仅方便用户随时使用，还可能为人们的日常生活带来更多智能体验。随着 AI 技术的发展，这种新型设备有望为消费者提供更为智能化的服务，满足他们在生活、工作等多方面的需求。此外，报告中还提到，全球科技公司对新兴市场的关注日益增加，尤其是在制造和组装领域，越南因其成本优势和政策支持，正逐渐成为重要的生产基地。随着这款新设备的推出，未来的科技产品可能会更具便携性和智能化，从而推动市场的进一步发展。

2025-05-23

234

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。