多模态大模型视觉推理能力评估:o3 仅得 25.8% 分数
清华大学、腾讯混元、斯坦福大学及卡耐基梅隆大学的研究团队近日联合发布了一项新评估基准 ——RBench-V,专门针对多模态大模型的视觉推理能力进行测试。
RBench-V 基准测试包含803道题目,涉及多个领域,包括几何与图论、力学与电磁学、多目标识别和路径规划等。与以往只要求文字回答的评估不同,这次评测特别要求模型生成或修改图像内容,以支持推理过程。这意味着,模型不仅需要理解问题,还需要像人类一样,通过绘制辅助线或观察图形结构来进行思考。
测试结果显示,即便是表现最好的 o3模型,在 RBench-V 上的准确率也仅为25.8%,远低于人类专家的82.3%。Google 的 Gemini2.5模型紧随其后,仅获得20.2% 的得分。更令人担忧的是,许多开源模型的准确率在8% 至10% 之间,甚至有些模型的表现接近随机作答。
RBench-V 的研究表明,当前的多模态大模型在处理复杂的几何问题时,往往采取了简化的策略。与人类通过直观的可视化方法进行思考不同,大部分模型更倾向于将图形问题抽象为代数表达,用文本推理代替真实的图像操作。这一现象反映出它们在深层理解图像信息上的不足。
研究团队指出,未来的模型需要在推理过程中主动生成图像,以帮助思考,才能真正实现 “类人智能”。他们提到,多模态思维链和智能体推理等新方法,可能是人工智能发展的一条重要路径。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
秘塔AI搜索推出全新“极速”模型,响应速度最高400 tokens/秒
秘塔AI搜索推出了全新“极速”模型,新版模型不仅更快,准确率更高,逻辑也更清晰。 据介绍,秘塔AI团队通过在GPU上进行kernel fusion,以及在CPU上进行动态编译优化,在单张H800 GPU上实现了最高400 tokens/秒的响应速度,大部分问题2秒内就能答完。 用户可通过测速站点kuai.metaso.cn体验实际效果,但团队提示模型规模较小可能影响回答质量。
- 下一篇
Mistral AI 发布 Agents API,内置代码执行、网络搜索等工具
Mistral AI 宣布推出 Agents API,其内置代码执行、网络搜索等工具,支持跨对话持久记忆和智能体编排。 官方公告写道: 传统语言模型擅长生成文本,但在执行操作或保持上下文方面存在局限。Mistral 的新 Agents API 通过将 Mistral 强大的语言模型与以下功能结合,解决了这些局限性: 内置的代码执行、网络搜索、图像生成和 MCP 工具连接器 跨对话的持久化记忆 针对代理的编排能力 Agents API 通过提供一个专门的框架补充了Chat Completion API,简化了代理用例的实现。它是企业级 Agent 平台的核心。 通过为 AI Agent 提供一个可靠的框架来处理复杂任务、保持上下文和协调多个操作,Agents API 使企业能够以更实用和更有影响力的方式使用 AI。 MistralAgents API 主要功能如下: 核心功能组件 代码执行连接器支持在安全沙盒中运行 Python 代码,图像生成连接器由Black Forest Lab FLUX1.1 [pro] Ultra驱动,文档库连接器集成 RAG 功能,网络搜索连接器可获取 AFP...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS6,CentOS7官方镜像安装Oracle11G
- Hadoop3单机部署,实现最简伪集群
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Linux系统CentOS6、CentOS7手动修改IP地址
- Docker安装Oracle12C,快速搭建Oracle学习环境