推理 AI 模型基准测试成本激增:评估一个或需近 3000 美元
第三方 AI 测试机构 Artificial Analysis 数据显示,在七种流行的 AI 基准测试中评估 OpenAI 的 o1 推理模型需要花费 2,767.05 美元:MMLU-Pro、GPQA Diamond、Humanity's Last Exam、LiveCodeBench、SciCode、AIME 2024 和 MATH-500。
在同一组测试中对 Anthropic 最新的 Claude 3.7 Sonnet进行基准测试的成本为 1,485.35 美元,而测试 OpenAI 的o3-mini-high 的成本为 344.59 美元。
有些推理模型的基准测试成本比其他模型更低。例如,Artificial Analysis 评估 OpenAI 的 o1-mini 花费了 141.22 美元。但平均而言,这些模型的基准测试成本往往不菲。Artificial Analysis 总计花费约 5,200 美元评估了大约十几个推理模型,几乎是该公司分析 80 多个非推理模型(2,400 美元)花费的两倍。
OpenAI 的非推理 GPT-4o 模型评估成本仅为 108.85 美元,而 Claude 3.6 Sonnet(Claude 3.7 Sonnet 的非推理前身)的评估成本仅为 81.41 美元。
为什么推理模型的测试成本如此之高?主要是因为它们会生成大量的 token。根据 Artificial Analysis 的数据,OpenAI 的 o1 在基准测试中生成了超过 4400 万个 token,约为 GPT-4o 的八倍。
事实上,,目前绝大多数 AI 企业都通过 token 来收取模型使用费,因此用户可以明确看到这个成本是如何累积起来的。开发了自己的模型基准的 Epoch AI 高级研究员 Jean-Stanislas Denain 表示,现代基准也倾向于从模型中引出大量 token,因为它们包含涉及复杂、多步骤任务的问题。
Denain 告诉 TechCrunch:“尽管如今每个基准测试的问题数量总体上有所减少,但基准测试却更加复杂。它们通常试图评估模型执行现实世界任务的能力,例如编写和执行代码、浏览互联网以及使用计算机。”
他补充说,随着时间的推移,最昂贵的模型的单位 token 成本也越来越高。例如,Anthropic 的Claude 3 Opus在 2024 年 5 月发布时是最昂贵的模型,每百万个输出 token 的成本为 75 美元。OpenAI 的GPT-4.5和o1-pro均于今年早些时候推出,每百万个输出 token 的成本分别为 150 美元和 600 美元。
“由于模型随着时间的推移不断改进,达到特定性能水平的成本也随之大大降低,这是事实。但如果你想在任何时候评估最佳的最大模型,你仍然需要支付更多费用。”
包括 OpenAI 在内的许多 AI 实验室都允许基准测试机构免费或以补贴的方式访问其模型进行测试。但一些专家担忧这可能损害评估的客观性,即使没有证据表明存在操纵行为,仅仅是暗示 AI 实验室参与其中,就有可能损害评估评分的公正性。
AI 初创公司 General Reasoning 的首席执行官 Ross Taylor 质疑道,“从科学的角度来看,如果你发表了一个没人能用相同模型复制的结果,那它还能算是科学吗?”

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
OpenAI 将在下周发布多款新模型
OpenAI CEO Sam Altman 近日在回复网友时表示,o3 和 o4-mini 两款新模型会在不久之后发布。 而据 The Verge 报道,知名 AI 软件工程师 Tibor Blaho 今天也在新版 ChatGPT 网页中发现了 o4 mini、o4 mini high 和 o3 的相关信息。The Verge 也表示,o3 和 o4 mini 系列都将会在下周推出,除非 OpenAI 调整发布计划。 另外,报道还指出 OpenAI 将会在下周推出 GPT-4.1 系列模型,包括更小版本的 GPT-4.1 mini 和 nano 两个版本。 知情人士透露,OpenAI 即将要发布一系列新的 AI 模型,并表示 GPT-4.1 将会是多模态模型 GPT-4o 的改进版。
- 下一篇
云云协同游戏行业论坛:华为游戏中心赋能开发者 打造鸿蒙精品游戏
2025年4月10日,“聚力共创 加速行业智能跃迁”华为云生态大会2025在芜湖召开。期间,由华为游戏中心主办的云云协同游戏行业论坛成功举办。论坛以“云启鸿蒙,游创未来”为主题,聚焦云平台、AI使能下游戏行业智能化发展,汇聚行业专家、游戏开发者与生态伙伴,围绕鸿蒙游戏生态建设、技术创新、开发者扶持等议题展开深度探讨,加速游戏行业智能化升级。 鸿蒙游戏生态迈入新阶段,全场景智能分发助力开发者 论坛伊始,华为游戏中心总经理发表了开场致辞,回顾了鸿蒙游戏生态的显著成果。他表示,鸿蒙生态的建设与发展,离不开产业的合作与协同,截至目前,已有500+游戏厂商参与鸿蒙生态建设,上架了超过3700款鸿蒙游戏,鸿蒙游戏正在迈向新纪元。而华为游戏中心将秉承软硬芯云协同的自主创新的底色,持续提供一站式服务支持,助力开发者实现技术跃迁。 会上,华为游戏中心高级运营总监也分享了鸿蒙游戏生态的差异化竞争优势,在游戏市场竞争日趋激烈的当下,鸿蒙游戏围绕新机遇、新体验、新服务正在为行业开辟全新赛道。 软硬端云的技术协同与创新,促进了鸿蒙游戏的体验提升,同时也为游戏产业催生更多新机遇。通过近场感知技术,多款鸿蒙游戏实现...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Hadoop3单机部署,实现最简伪集群
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS8编译安装MySQL8.0.19
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- CentOS6,CentOS7官方镜像安装Oracle11G