Qwen3-VL 发布,迄今为止 Qwen 系列中最强大的视觉语言模型
阿里通义 Qwen 团队正式推出全新升级的 Qwen3-VL 系列,并称这是迄今为止 Qwen 系列中最强大的视觉语言模型。 据介绍,这一代模型在多个维度实现了全面跃升: 无论是纯文本理解与生成,还是视觉内容的感知与推理; 无论是上下文长度的支持能力,还是对空间关系、动态视频的理解深度; 乃至在与 Agent 交互中的表现,Qwen3-VL 都展现出显著进步。 最新开源的是该系列的旗舰模型 —— Qwen3-VL-235B-A22B,同时包含 Instruct 与 Thinking 两个版本。其中,Instruct 版本在多项主流视觉感知评测中,性能达到甚至超过 Gemini 2.5 Pro;而 Thinking 版本更是在众多多模态推理的评测基准下取得了 SOTA 的表现。 Qwen3-VL 的目标是让模型不仅能“看到”图像或视频,更能真正看懂世界、理解事件、做出行动。整体架构如下: Qwen3-VL 核心亮点: 视觉智能体(Visual Agent):Qwen3-VL 能操作电脑和手机界面、识别 GUI 元素、理解按钮功能、调用工具、执行任务,在 OS World 等 benchm...
