7B 开源模型性能超越 LLaVA，DeepSeek Janus Pro 论文详解

2025-03-10 388

编者按： 提到 DeepSeek，大家可能更熟悉 R1 模型 ------ 这款以低成本、高性能和开源特性颠覆行业的语言模型，而今天这篇文章介绍的 DeepSeek Janus Pro，通过创新的架构设计，在性能上超越了同领域的众多顶尖专用模型（Janus-Pro 7B 在图像理解和图像生成两方面都超越了 LLaVA、Dalle 3 和 SD XL 这样的主流选手）。

本文深入解析了 Janus Pro 的技术细节，从其核心设计原则到具体的图像编码器选择，再到训练过程的三个阶段，全面展示了 Janus Pro 如何通过创新的架构设计和精细的训练策略，实现了在多模态理解和生成任务上的卓越表现。

作者 | AI Papers Academy

编译 | 岳扬

01 导言

业界仍在消化 DeepSeek 最近发布的震撼 AI 界的 DeepSeek-R1，但 R1 发布短短数日后，这家公司又祭出了另一款惊艳的开源多模态大模型 Janus Pro。这款对标国际顶尖多模态模型的新作，标志着 DeepSeek 在多模态领域的重大突破。

本文将深度解读 Janus Pro 背后的研究论文《Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling》。要理解这篇论文，我们还需要首先解析 DeepSeek 的前一篇论文《JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation》中提出的 Janus 模型基础架构。阅读本文无需任何先验知识，我们将系统阐释两代模型的演进逻辑：新论文建立在前一篇论文的基础上，本文将对这两篇论文进行全景式解析。

Janus-Pro 相关论文的标题和作者[1]

Janus-Pro 前一篇相关论文的标题和作者[2]

02 统一多模态理解与生成

两篇论文都聚焦于"统一多模态理解与生成（unified multimodal understanding and generation）"这一核心命题。在深入剖析 Janus 模型的技术细节之前，我们有必要先厘清这一概念。

2.1 图像理解任务解析

MLLM 实现的图像理解案例

大语言模型（LLM）已在诸多领域展现出卓越能力。基于此，学界发展出多模态大语言模型（MLLM）技术路线，典型代表如 LLaVA。这类模型能同时处理文本指令与视觉输入：如图所示，当用户输入"我的猫在做什么？（what is my cat doing?）"并附上猫咪图片时，模型可精准解析图文信息，得出"猫咪试图抓鱼（the cat is trying to catch a fish）"的结论。

这种技术路线在图像理解任务中成效显著。以 Janus Pro 论文展示的案例为例：当用户提供蛋糕图片并询问其相关背景信息时，Janus 不仅准确识别出蛋糕的主题元素是"猫和老鼠"，更能调用其基座语言模型，延展输出该经典 IP 的背景知识。这体现了 MLLM 系统的双重优势 ------ 既具备跨模态理解能力，又可继承 LLM 的通用知识储备。

图像理解任务案例展示[1]

2.2 图像生成任务解析

图像生成任务案例展示

当前主流的图像生成模型（如 Stable Diffusion、DALL-E 3 等其他模型）主要基于扩散模型及其改进架构。如图示案例所示，当输入"可爱的猫咪（a cute cat）"文本指令时，系统能够生成高质量视觉内容。

2.3 单个模型统一处理图像理解和生成任务的优势

现有技术路线中，图像理解与生成通常分别由独立的系统完成。将这些任务统一到一个模型中也有很大的好处：在实际应用场景中，单一模型可同步处理这两类任务，避免多个模型切换带来的计算资源浪费与系统复杂度提升。

Janus 模型通过对模型架构进行创新设计，将这两种任务的处理整合于统一框架中。虽然将多任务的处理统一于单一模型并非全新概念，但在后文进行技术解析时将揭示其架构设计的精妙之处。

使用 Janus 统一处理理解和生成任务

03 Janus 与 Janus Pro 架构

Janus 和 Janus Pro 架构[1]

原始 Janus 模型与 Janus Pro 的架构设计相似，我们可以通过论文中的示意图来理解。 Janus Pro 模型的核心是一个自回归 Transformer 架构的大语言模型（LLM）。

3.1 Janus Pro 的核心设计原则

其他统一处理多模态理解和生成的模型通常采用单一图像编码器。但DeepSeek 的研究人员发现，理解与生成任务对图像编码的需求存在本质差异，单一编码器会经常受到任务干扰的影响。因此 Janus 架构的核心设计原则是解耦多模态理解与生成的视觉编码，通过为不同任务类型配置专用编码器实现功能隔离。

3.2 Janus Pro 图像编码器

对于图像理解任务，Janus 采用 SigLIP 进行图像编码。SigLIP 是 OpenAI CLIP 模型的改进版本，能够从图像中提取语义表征，使其非常适合图像理解类任务。这些表征被线性映射到 LLM 的输入嵌入空间。

对于图像生成任务，Janus 使用了来自自回归图像生成模型 LlamaGen 的现有编码器。这是一个 vector quantization (VQ) tokenizer，可将图像转换为 ID 序列（译者注：类似于将一段语音信号转换为文字（语音 → 离散的文字符号），此处是将连续图像特征转换为离散的符号（ID）。），每个 ID 都与预定义向量相关联。然后通过一个训练好的模块，将这些预定义向量映射到 LLM 的输入嵌入空间。

3.3 LLM 的处理过程与输出

文本与图像的嵌入向量被拼接形成 LLM 的输入序列。对于图像理解任务，直接调用 LLM 内置的文本预测头输出结果；对于图像生成任务，则在 LLM 上添加一个图像解码头，由其处理最终的隐藏状态（Hidden State，包含输入序列的语义信息）生成图像。

3.4 Rectified Flow

逐步去除图像噪声示例[3]

图像生成过程采用 Rectified Flow 方法。 本文不深入技术细节，但可通过对比扩散模型（Diffusion Models）直观理解其优势：从一张纯噪声图像出发，通过多步骤迭代（如1000步）逐步去噪，最终生成清晰图像（如猫咪图片）。该技术通过路径优化和噪声抑制，显著减少生成清晰图像所需的步骤数量。

04 Janus Pro 训练过程

Janus 训练流程示意图（源自原始 Janus 论文）[2]

上图描述了 Janus 的训练流程，该图取自原始 Janus 论文。我们将在本文解释 Janus Pro 的不同之处。Janus 和 Janus Pro 的训练均分为三个阶段。

4.1 第一阶段 - Adaptation

本阶段目的是让新增组件与预训练好的组件有效协作。 为此，大语言模型（LLM）和图像编码器的权重被冻结，仅训练新引入的组件。这些组件包括将图像编码映射到 LLM 输入嵌入空间的映射模块，以及图像生成头（Image Generation Head）。该阶段使用 ImageNet 数据进行训练，使模型能根据图像类别生成对应图像。在 Janus Pro 模型中，本阶段在 ImageNet 上的 training steps 有所增加。

4.2 第二阶段 - Unified Pre-Training

此阶段继续训练新组件，同时解冻 LLM 及其内置的文本预测头，以增强对多模态嵌入序列的处理能力。 本阶段训练样本类型包含多模态理解任务样本、图像生成任务样本和纯文本数据。Janus Pro 与原始 Janus 的主要区别在于移除了本阶段的 ImageNet 数据。在 Janus Pro 训练中直接使用 text-to-image 数据，而原始 Janus 模型则从 ImageNet 数据起步，逐步增加 text-to-image 数据的比例。

有一处值得强调，图像编码器的表征在训练过程中与图像生成的潜在输出进行了对齐，以强化生成过程的语义一致性。

4.3 第三阶段 - Supervised Fine-Tuning

第三阶段使用指令调优数据进行监督式微调，数据包含对话样本和高质量文生图（text-to-image）样本。 此阶段开始训练图像理解编码器，该流程在 Janus 和 Janus Pro 中保持一致。

相较于 Janus，Janus Pro 的其他主要改进包括：扩大训练数据规模及模型规模。模型参数方面，使用的 LLM 从 15 亿参数扩展至 70 亿参数。

05 Janus Pro 的成果

5.1 多模态理解与生成能力的对比

Janus Pro 与顶尖多模态理解及图像生成模型的比较[1]

上图为 Janus Pro 与其他高性能模型的对比结果。

左图展示了多模态理解任务的性能，横轴为模型参数量级，纵轴为多个基准测试的平均准确率。值得注意的是，Janus-Pro-7B 的表现优于其他顶尖模型（如 LLaVA 系列）。更令人瞩目的是，这一成绩由统一模型实现（LLaVA 模型并非统一架构）。Janus Pro 还大大超越了以往的统一模型，并在参数量近乎 TokenFlow-XL 一半的情况下，准确率略微领先于该模型。

右图展示了两个基准测试的文生图性能测评结果。Janus Pro 在生成质量上超越了 DALL-E 3、SD3-Medium 等顶级专用图像生成模型，同时刷新了统一模型在图像生成领域的最高纪录（此图未完整展示相关对比）。

5.2 Janus 与 Janus Pro 的生成质量对比

Janus 与 Janus Pro 的生成质量对比[1]

图中直观展现了 Janus Pro 相较于前代模型的生成质量提升。Janus Pro 生成的图像在细节丰富度、语义一致性及视觉真实感上均有显著优化。例如，复杂场景的构图更精准，光影效果更自然，且文本描述中的隐含需求（如特定艺术风格）被更完整地实现。

Thanks for reading!

Hope you have enjoyed and learned new things from this blog!

About the author

AI Papers Academy

At AI Papers Academy, we simplify AI research papers and concepts, making AI more accessible.

Our goal is to save you time by breaking down complex ideas into clear, digestible insights.

END

本期互动内容 🍻

❓如果您正在开发AI应用，DeepSeek Janus Pro 的哪些特性最吸引您考虑使用？

🔗文中链接🔗

[1]https://github.com/deepseek-ai/Janus

[2]https://arxiv.org/abs/2411.07975

[3]https://developer.nvidia.com/blog/improving-diffusion-models-as-an-alternative-to-gans-part-1/

本文经原作者授权，由 Baihai IDP 编译。 如需转载译文，请联系获取授权。

原文链接：

https://aipapersacademy.com/janus-pro/

微信关注我们

原文链接：https://my.oschina.net/IDP/blog/17867712

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Spring AI与DeepSeek实战二：打造企业级智能体

一、概述智能体 Agent 能自主执行任务实现特定目标的 AI 程序。传统 AI（如ChatGPT）主要依靠用户输入指令，而智能体 Agent 可以自主思考、决策，并执行复杂任务，就像一个AI助手，能够独立完成多步操作。本文将以多语言翻译助手为场景，演示如何基于Spring AI与DeepSeek模型构建一个支持多种语言的企业级翻译智能体，实现精准可控的跨语言交互。关于 Spring AI 与 DeepSeek 的集成，以及 API-KEY 的申请等内容，可参考文章《Spring AI与DeepSeek实战一：快速打造智能对话应用》二、系统Prompt 智能体的核心在于通过 Prompt 工程明确其能力边界。以下为翻译智能体的系统级 Prompt 设计：您是一名专业的多语言翻译助手，需严格遵守以下规则： 1. **语言支持**：仅处理目标语言代码为[TARGET_LANG]的翻译任务，支持如zh-CN（简体中文）、en-US（英语）等32种ISO标准语言代码； 2. **输入格式**：用户使用---translate_content---作为分隔符，仅翻译分隔符内的文本，其余内...

2025-03-10

563

自推测解码是一种新颖的文本生成方法，它结合了推测解码 (Speculative Decoding) 的优势和大语言模型 (LLM) 的提前退出 (Early Exit) 机制。该方法出自论文 LayerSkip: Enabling Early-Exit Inference and Self-Speculative Decoding 。它通过使用同一个模型的早期层来生成候选词元 (token)，并使用后期层进行验证，从而实现高效生成。 https://arxiv.org/abs/2404.16710 这项技术不仅加快了文本生成速度，还显著节省了内存并降低了计算延迟。为了实现端到端的加速，早期层的输出需要与最终层的输出足够接近。正如论文中所述，这可以通过一种训练方法来实现，该方法可以在预训练期间应用，也可以在特定领域进行微调时应用。自推测解码对于实际应用特别高效，它可以在较小的 GPU 上部署，并降低大规模推理所需的整体硬件资源。在本博客中，我们将探讨自推测解码的概念、其实现方式以及在 🤗 transformers 库中的实际应用。您将了解到其技术原理，包括提前退出层 (Ea...

2025-03-10

409

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。