高考数学大赛:六大 AI 模型争锋,豆包与元宝双双夺冠
随着高考的到来,数学考试再一次成为考生们心中的 “魔鬼”。在这场竞争中,六大人工智能模型也参与了挑战,分别是字节的豆包、腾讯的元宝、阿里的通义、百度的文心 X1Turbo、深度求索的 DeepSeek 以及 OpenAI 的 o3。
此次测试采用的是2025年新课标 Ⅰ 卷的14道客观题,总分为73分,涵盖了单选题、多选题和填空题。
为了确保测试的公平性,所有模型在答题时都没有系统提示和联网搜索的支持,每个模型只能进行一次答题。经过一番较量,最终结果出乎意料,豆包和元宝同以68分的成绩并列第一,展现了出色的推理能力。
相对而言,DeepSeek 和通义则稍显逊色,分别以63分和62分完赛。而文心 X1和 o3的表现则令人失望,尤其是 o3,仅获得34分,显现出对国内高考题目的适应性不足。
在具体题型的表现上,豆包、通义和元宝在单选题的表现颇为亮眼,各自得分35分。DeepSeek 因两道题失误拿下30分,而 o3则惨遭滑铁卢,单选题的得分仅为20分,错了一半的题目。
而在多选题方面,豆包、DeepSeek 和元宝均表现完美,三道题全对。相对来说,通义的表现虽然快速,但在关键时刻的判断失误也导致得分不理想。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
汇总 VR/AR 产业动态,持续引领科技行业潮流!
一、政策环境 【山西省首个5G+AR数字商业街区落地太原】 6月初,太原市小店区商务局举办“提振消费2025暨抱鼓巷夜经济AR景观发布仪式”。作为山西省首个5G+AR全场景数字商业街区标杆项目,通过“科技+文化+惠民”三重赋能,为太原夜经济注入强劲动力。 二、产业发展 【苹果(AAPL.US)公布“无摄像头眼动追踪系统”专利,意在打造更轻薄AR眼镜】 6月5日消息,美国专利商标局公开了一项来自苹果的专利申请,揭示了一种无需摄像头的下一代眼动追踪系统。这一技术突破对于苹果未来的AR眼镜和智能眼镜产品具有重要意义,可在不依赖摄像头的前提下实现高效精确的眼部追踪,同时大幅减小设备体积与复杂度。 【Meta(META.US)斥资数百万美元拉拢好莱坞,为下一代头显打造独家沉浸式内容】 据《华尔街日报》报道,Meta正积极游说好莱坞影视公司为其Horizon OS生态打造独家沉浸式视频内容,并已向包括迪士尼与独立电影厂牌A24在内的多家公司开出数百万美元的内容采购报价。 三、市场动态 【高通(QCOM.US)骁龙AR2芯片推动AR眼镜技术飞跃】 获悉,高通骁龙AR2芯片成为AR技术革新...
- 下一篇
来自中国团队的两大 LLM 架构“开撕”
RWKV创始人彭博刚刚在社交平台发布了一篇文章,主要讨论 DeltaNet 和 RWKV-7 在基线测试中的问题。 来源: https://zhuanlan.zhihu.com/p/1915054612559426430 https://github.com/BlinkDL/zoology 事件主角DeltaNet 和 RWKV均为中国团队创建的 LLM 架构: DeltaNet 是结合线性 Transformer 和非线性 Transformer 架构的模型,通过特定方法将非线性 Transformer 转换为线性 DeltaNet 形式,从而在保持性能的同时提高计算效率,经实验验证,在特定数据集上能取得与原始非线性模型相当的性能。 https://sustcsonglin.github.io/blog/2024/deltanet-1/ RWKV(是一种具有 GPT 级大型语言模型(LLM)性能的 RNN,也可以像 GPT Transformer 一样直接训练(可并行化)。 RWKV 结合了 RNN 和 Transformer 的最佳特性:出色的性能、恒定的显存占用、恒定的推理生成...
相关文章
文章评论
共有0条评论来说两句吧...