您现在的位置是:首页 > 文章详情

推理 AI 模型基准测试成本激增:评估一个或需近 3000 美元

日期:2025-04-11点击:64

第三方 AI 测试机构 Artificial Analysis 数据显示,在七种流行的 AI 基准测试中评估 OpenAI 的 o1 推理模型需要花费 2,767.05 美元:MMLU-Pro、GPQA Diamond、Humanity's Last Exam、LiveCodeBench、SciCode、AIME 2024 和 MATH-500。

在同一组测试中对 Anthropic 最新的 Claude 3.7 Sonnet进行基准测试的成本为 1,485.35 美元,而测试 OpenAI 的o3-mini-high 的成本为 344.59 美元。

有些推理模型的基准测试成本比其他模型更低。例如,Artificial Analysis 评估 OpenAI 的 o1-mini 花费了 141.22 美元。但平均而言,这些模型的基准测试成本往往不菲。Artificial Analysis 总计花费约 5,200 美元评估了大约十几个推理模型,几乎是该公司分析 80 多个非推理模型(2,400 美元)花费的两倍。

OpenAI 的非推理 GPT-4o 模型评估成本仅为 108.85 美元,而 Claude 3.6 Sonnet(Claude 3.7 Sonnet 的非推理前身)的评估成本仅为 81.41 美元。

为什么推理模型的测试成本如此之高?主要是因为它们会生成大量的 token。根据 Artificial Analysis 的数据,OpenAI 的 o1 在基准测试中生成了超过 4400 万个 token,约为 GPT-4o 的八倍。

事实上,,目前绝大多数 AI 企业都通过 token 来收取模型使用费,因此用户可以明确看到这个成本是如何累积起来的。开发了自己的模型基准的 Epoch AI 高级研究员 Jean-Stanislas Denain 表示,现代基准也倾向于从模型中引出大量 token,因为它们包含涉及复杂、多步骤任务的问题。

Denain 告诉 TechCrunch:“尽管如今每个基准测试的问题数量总体上有所减少,但基准测试却更加复杂。它们通常试图评估模型执行现实世界任务的能力,例如编写和执行代码、浏览互联网以及使用计算机。”

他补充说,随着时间的推移,最昂贵的模型的单位 token 成本也越来越高。例如,Anthropic 的Claude 3 Opus在 2024 年 5 月发布时是最昂贵的模型,每百万个输出 token 的成本为 75 美元。OpenAI 的GPT-4.5和o1-pro均于今年早些时候推出,每百万个输出 token 的成本分别为 150 美元和 600 美元。

“由于模型随着时间的推移不断改进,达到特定性能水平的成本也随之大大降低,这是事实。但如果你想在任何时候评估最佳的最大模型,你仍然需要支付更多费用。”

包括 OpenAI 在内的许多 AI 实验室都允许基准测试机构免费或以补贴的方式访问其模型进行测试。但一些专家担忧这可能损害评估的客观性,即使没有证据表明存在操纵行为,仅仅是暗示 AI 实验室参与其中,就有可能损害评估评分的公正性。

AI 初创公司 General Reasoning 的首席执行官 Ross Taylor 质疑道,“从科学的角度来看,如果你发表了一个没人能用相同模型复制的结果,那它还能算是科学吗?”

原文链接:https://www.oschina.net/news/343911/ai-models-benchmarking-more-expensive
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章