2025 年年度中文大模型基准测评报告发布
SuperCLUE 正式发布了“2025年度中文大模型基准测评报告”。 本次年度通用基准测评共有23个国内外模型参与,测评集包括六大任务:数学推理、科学推理、代码生成(含Web开发)、智能体(任务规划)、精确指令遵循、幻觉控制,共998题。 测评要点1. 海外闭源模型仍占据榜单头部位置。 在本次2025年年度中文大模型基准测评中,Anthropic旗下的Claude-Opus-4.5-Reasoning以68.25分的总分位居榜首,Google的Gemini-3-Pro-Preview(65.59分)和OpenAI的GPT-5.2(high)(64.32分)紧随其后。国内开源最佳模型Kimi-K2.5-Thinking(61.50分)和闭源最佳模型Qwen3-Max-Thinking(60.61分)分列全球第四和第六。 测评要点2. 国产大模型正从"跟跑"向"并跑"阶段加速演进。 从2025年年初DeepSeek-R1发布,以对标OpenAI o1的性能极大地缩小了海内外模型的差距,到Ki...
