您现在的位置是：首页 > 文章详情

Qwen3-VL 发布，迄今为止 Qwen 系列中最强大的视觉语言模型

日期：2025-09-24点击：43收藏

阿里通义 Qwen 团队正式推出全新升级的 Qwen3-VL 系列，并称这是迄今为止 Qwen 系列中最强大的视觉语言模型。

据介绍，这一代模型在多个维度实现了全面跃升：

无论是纯文本理解与生成，还是视觉内容的感知与推理；
无论是上下文长度的支持能力，还是对空间关系、动态视频的理解深度；
乃至在与 Agent 交互中的表现，Qwen3-VL 都展现出显著进步。

最新开源的是该系列的旗舰模型 —— Qwen3-VL-235B-A22B，同时包含 Instruct 与 Thinking 两个版本。其中，Instruct 版本在多项主流视觉感知评测中，性能达到甚至超过 Gemini 2.5 Pro；而 Thinking 版本更是在众多多模态推理的评测基准下取得了 SOTA 的表现。

Qwen3-VL 的目标是让模型不仅能“看到”图像或视频，更能真正看懂世界、理解事件、做出行动。整体架构如下：

Qwen3-VL 核心亮点：

视觉智能体（Visual Agent）：Qwen3-VL 能操作电脑和手机界面、识别 GUI 元素、理解按钮功能、调用工具、执行任务，在 OS World 等 benchmark 上达到世界顶尖水平，能通过调用工具有效提升在细粒度感知任务的表现。
纯文本能力媲美顶级语言模型：Qwen3-VL 在预训练早期即混合文本与视觉模态协同训练，文本能力持续强化，最终在纯文本任务上表现与 Qwen3-235B-A22B-2507 纯文本旗舰模型不相上下 —— 是真正“文本根基扎实、多模态全能”的新一代视觉语言模型。
视觉 Coding 能力大幅提升：实现图像生成代码以及视频生成代码，例如看到设计图，代码生成 Draw.io/HTML/CSS/JS 代码，真正实现“所见即所得”的视觉编程。
空间感知能力大幅提升：2D grounding 从绝对坐标变为相对坐标，支持判断物体方位、视角变化、遮挡关系，能实现 3D grounding，为复杂场景下的空间推理和具身场景打下基础。
长上下文支持和长视频理解：全系列模型原生支持 256K token 的上下文长度，并可扩展至 100 万 token。这意味着，无论是几百页的技术文档、整本教材，还是长达两小时的视频，都能完整输入、全程记忆、精准检索，支持视频精确定位到秒级别时刻。
多模态思考能力显著增强：Thinking 模型重点优化了 STEM 与数学推理能力。面对专业学科问题，模型能捕捉细节、抽丝剥茧、分析因果、给出有逻辑、有依据的答案，在 MathVision、MMMU、MathVista 等权威评测中达到领先水平。
视觉感知与识别能力全面升级：通过优化预训练数据的质量和广度，模型现在能识别更丰富的对象类别——从名人、动漫角色、商品、地标，到动植物等，覆盖日常生活与专业领域的“万物识别”需求。
OCR 支持更多语言及复杂场景：支持的中英外的语言从10种扩展到32种，覆盖更多国家和地区；在复杂光线、模糊、倾斜等实拍挑战性场景下表现更稳定；对生僻字、古籍字、专业术语的识别准确率也显著提升；超长文档理解和精细结构还原能力进一步提升