2025 年 Q4“方升-多模态”大模型基准测试结果发布
中国信息通信研究院近日组织完成 2025 年第四季度多模态大模型专项测试工作,最新体系和测试结果如下: 2025年11月至12月测试涵盖多模态理解、文生图与文生视频三项任务,共评估30个模型,其中包括10个多模态理解大模型、10个视频生成模型和10个图像生成模型。 1、多模态理解任务测试结果 多模态理解任务测试旨在考察模型对图像、文本、图表等信息的深层解析与逻辑推理能力,涵盖函数求解、几何分析、表格分析、身份分析、色彩分析、未来预测、关系分析、物理推理、IQ问题维度 本此测试10个多模态理解大模型,其中国内模型5个,国外模型5个,包括Google Gemini-3-pro-preview、OpenAI GPT-5.2-high、智谱GLM-4.6V、字节跳动Doubao-Seed-1-6-vision-250815等代表性模型。测试结果显示:一是谷歌Gemini-3-pro-preview综合得分位居榜首,其表现小幅领先于 GPT-5.2-High,并显著优于 GLM-4.6V。二是国内模型之间差距较小,GLM-4.6V、Doubao-Seed-1-6-vision与 Qwen3-VL...

