SpatialBench 榜单更新:阿里千问霸榜前二,超越 Gemini3、GPT5.1

空间推理基准测试SpatialBench更新了最新一期榜单,阿里千问的视觉理解模型Qwen3-VL、Qwen2.5-VL位列头两名,超越Gemini 3、GPT-5.1、Claude Sonnet4.5等国际顶尖模型。

据了解,SpatialBench是一项近年来兴起的第三方空间推理基准测试榜单,主要聚焦多模态模型在空间、结构、路径等方面的综合推理能力,被AI社区视为是衡量“具身智能”进展的新兴测试标准之一。SpatialBench不仅测试模型已知的知识,还测试模型在二维和三维空间中“感知”和操控抽象概念的能力,这对具身智能的落地尤为关键。

SpatialBench榜单显示,Qwen3-VL-235B和Qwen2.5-VL-72B分别斩获13.5分和12.9分,领先于Gemini 3.0 Pro Preview(9.6) 、GPT-5.1(7.5)、Claude Sonnet 4.5等海外顶尖模型。然而,AI大模型的整体表现距离人类仍有差距,人类基准线80分左右,可专业处理电路分析、CAD 工程和分子生物学等复杂空间推理任务,目前大模型还无法完全自动化完成此类工作。

Qwen2.5-VL于2024年开源,Qwen3-VL是阿里在2025年开源的新一代视觉理解模型。Qwen3-VL在视觉感知和多模态推理方面实现重大突破,在32项核心能力测评中超过Gemini2.5-Pro和GPT-5,不但可以调用抠图、搜索等工具完成“带图推理”,也可以凭借一张设计草图或一段小游戏视频直接“视觉编程”。同时,Qwen3-VL专门增强了3D检测能力,可以更好地感知空间,基于Qwen3-VL,机器人更好地判断物体方位、视角变化和遮挡关系,实现远处苹果的精准抓取。

目前,Qwen3-VL已开源不同版本,包括2B、4B、8B、32B等密集模型以及30B-A3B、235B-A22B等MoE模型,每个模型都有指令版和推理版两款,是当下最受企业和开发者欢迎的开源视觉理解模型。同时,Qwen3-VL模型也已上线千问APP,用户可免费体验。

优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/385915

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

相关文章

发表评论

资源下载

更多资源
优质分享Android(本站安卓app)

优质分享Android(本站安卓app)

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Apache Tomcat7、8、9(Java Web服务器)

Apache Tomcat7、8、9(Java Web服务器)

Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定,而且免费,因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可,成为目前比较流行的Web 应用服务器。

Eclipse(集成开发环境)

Eclipse(集成开发环境)

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。幸运的是,Eclipse 附带了一个标准的插件集,包括Java开发工具(Java Development Kit,JDK)。

Java Development Kit(Java开发工具)

Java Development Kit(Java开发工具)

JDK是 Java 语言的软件开发工具包,主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心,它包含了JAVA的运行环境(JVM+Java系统类库)和JAVA工具。