Qwen3-VL 发布,迄今为止 Qwen 系列中最强大的视觉语言模型
阿里通义 Qwen 团队正式推出全新升级的 Qwen3-VL 系列,并称这是迄今为止 Qwen 系列中最强大的视觉语言模型。
据介绍,这一代模型在多个维度实现了全面跃升:
- 无论是纯文本理解与生成,还是视觉内容的感知与推理;
- 无论是上下文长度的支持能力,还是对空间关系、动态视频的理解深度;
- 乃至在与 Agent 交互中的表现,Qwen3-VL 都展现出显著进步。
最新开源的是该系列的旗舰模型 —— Qwen3-VL-235B-A22B,同时包含 Instruct 与 Thinking 两个版本。其中,Instruct 版本在多项主流视觉感知评测中,性能达到甚至超过 Gemini 2.5 Pro;而 Thinking 版本更是在众多多模态推理的评测基准下取得了 SOTA 的表现。
Qwen3-VL 的目标是让模型不仅能“看到”图像或视频,更能真正看懂世界、理解事件、做出行动。整体架构如下:
Qwen3-VL 核心亮点:
-
视觉智能体(Visual Agent):Qwen3-VL 能操作电脑和手机界面、识别 GUI 元素、理解按钮功能、调用工具、执行任务,在 OS World 等 benchmark 上达到世界顶尖水平,能通过调用工具有效提升在细粒度感知任务的表现。
-
纯文本能力媲美顶级语言模型:Qwen3-VL 在预训练早期即混合文本与视觉模态协同训练,文本能力持续强化,最终在纯文本任务上表现与 Qwen3-235B-A22B-2507 纯文本旗舰模型不相上下 —— 是真正“文本根基扎实、多模态全能”的新一代视觉语言模型。
-
视觉 Coding 能力大幅提升:实现图像生成代码以及视频生成代码,例如看到设计图,代码生成 Draw.io/HTML/CSS/JS 代码,真正实现“所见即所得”的视觉编程。
-
空间感知能力大幅提升:2D grounding 从绝对坐标变为相对坐标,支持判断物体方位、视角变化、遮挡关系,能实现 3D grounding,为复杂场景下的空间推理和具身场景打下基础。
-
长上下文支持和长视频理解:全系列模型原生支持 256K token 的上下文长度,并可扩展至 100 万 token。这意味着,无论是几百页的技术文档、整本教材,还是长达两小时的视频,都能完整输入、全程记忆、精准检索,支持视频精确定位到秒级别时刻。
-
多模态思考能力显著增强:Thinking 模型重点优化了 STEM 与数学推理能力。面对专业学科问题,模型能捕捉细节、抽丝剥茧、分析因果、给出有逻辑、有依据的答案,在 MathVision、MMMU、MathVista 等权威评测中达到领先水平。
-
视觉感知与识别能力全面升级:通过优化预训练数据的质量和广度,模型现在能识别更丰富的对象类别——从名人、动漫角色、商品、地标,到动植物等,覆盖日常生活与专业领域的“万物识别”需求。
-
OCR 支持更多语言及复杂场景:支持的中英外的语言从10种扩展到32种,覆盖更多国家和地区;在复杂光线、模糊、倾斜等实拍挑战性场景下表现更稳定;对生僻字、古籍字、专业术语的识别准确率也显著提升;超长文档理解和精细结构还原能力进一步提升
https://huggingface.co/Qwen/Qwen3-VL-235B-A22B-Thinking
https://huggingface.co/Qwen/Qwen3-VL-235B-A22B-Instruct

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
阿里吴泳铭:大模型是下一代操作系统,通往 ASI 之路分三个阶段
在今日举办的2025云栖大会上,阿里巴巴集团董事兼首席执行官、阿里云智能集团董事长兼首席执行官吴泳铭在分享中指出,“智能化革命将远超我们的想象,通用人工智能不仅会放大我们人类的智力,还将解放人类的潜能,为超级人工智能(ASI)的到来奠定道路。” 吴泳铭指出,实现AGI已是确定性事件,但这仅是起点,终极目标是发展出能自我迭代、全面超越人类的超级人工智能(ASI),以解决气候、能源、星际旅行等重大科学难题。 通往超级人工智能之路分为三个阶段: 智能涌现,AI通过学习人类知识具备泛化智能; “自主行动”,AI掌握工具使用和编程能力以“辅助人”,这是行业当前所处的阶段; “自我迭代”,AI通过连接物理世界的全量原始数据,实现自主学习,最终能够“超越人”。 此外,吴泳铭还表示,大模型是下一代操作系统。AI Cloud是下一代计算机。未来全世界或只会有5-6个超级云计算平台。目前阿里正积极推进3800亿的AI基础设施建设,并计划追加更大的投入。为了迎接ASI时代的到来,对比2022年这个GenAI的元年,到2032年阿里云全球数据中心的能耗规模将提升10倍。
-
下一篇
OpenAI 星际之门确定首批选址,与甲骨文、软银联手建五大 AI 数据中心
OpenAI 发布公告,确定AI基础设施平台“星际之门”(Stargate)的首批选址,该公司宣布,将新建五个美国AI数据中心。 这五个新数据中心的容量,加上OpenAI位于得克萨斯州阿比林的旗舰数据中心以及与CoreWeave合作的正在进行的项目,将使Stargate在未来三年的规划容量达到近7千兆瓦,投资额超过4000亿美元。 其中三个新站点正与甲骨文合作开发,分别位于得克萨斯州沙克尔福德县、新墨西哥州多尼亚安娜县以及中西部一个未公开的地点,加上位于得克萨斯州阿比林“星际之门”站点附近可能额外扩建的600兆瓦容量,可提供超过5.5吉瓦的容量。 另外两个站点正与软银合作开发,可在未来18个月内扩展至1.5千兆瓦,一个位于俄亥俄州洛兹敦,已破土动工,设计了一个先进的数据中心,预计将于明年投入运营。另一个位于得克萨斯州米拉姆县,将与软银集团旗下的SB Energy合作开发。
相关文章
文章评论
共有0条评论来说两句吧...