最强大模型的视觉能力不如 6 岁小孩
多家研究机构最新发布的 BabyVision 视觉推理基准结果显示,当前最强多模态模型在视觉推理方面的表现,仍显著落后于人类儿童水平。 即便是表现最好的 Gemini 3 Pro Preview,其得分也仅略高于 3 岁儿童,与 6 岁儿童仍存在约 20% 的差距,与成年人 94.1% 的水平更是相去甚远。 研究来自 UniPat AI、xbench、阿里、月之暗面、阶跃星辰等团队。结果显示,Gemini 3 Pro Preview 以 49.7% 的成绩领跑闭源模型,其后依次为 GPT‑5.2(34.4%)与豆包 Seed‑1.8(30.2%)。 其他模型表现更低,包括 Qwen3‑VL‑Plus(19.2%)、Grok‑4(16.2%)与 Claude 4.5 Opus(14.2%)。在开源模型中,Qwen3VL‑235B‑Thinking 以 22.2% 的成绩位列第一,但仍无法与闭源模型竞争。 研究指出,当前多模态大模型普遍采用「视觉转语言」的推理路径,即先将图像压缩为语言表征,再依赖语言模型进行推理。 这一架构在处理细粒度几何、空间关系、路径连续性等非语言特征时存在天然瓶颈,...
