推理 AI 模型基准测试成本激增：评估一个或需近 3000 美元-低调大师

推理 AI 模型基准测试成本激增：评估一个或需近 3000 美元

2025-04-11 298

第三方 AI 测试机构 Artificial Analysis 数据显示，在七种流行的 AI 基准测试中评估 OpenAI 的 o1 推理模型需要花费 2,767.05 美元：MMLU-Pro、GPQA Diamond、Humanity's Last Exam、LiveCodeBench、SciCode、AIME 2024 和 MATH-500。

在同一组测试中对 Anthropic 最新的 Claude 3.7 Sonnet进行基准测试的成本为 1,485.35 美元，而测试 OpenAI 的o3-mini-high 的成本为 344.59 美元。

有些推理模型的基准测试成本比其他模型更低。例如，Artificial Analysis 评估 OpenAI 的 o1-mini 花费了 141.22 美元。但平均而言，这些模型的基准测试成本往往不菲。Artificial Analysis 总计花费约 5,200 美元评估了大约十几个推理模型，几乎是该公司分析 80 多个非推理模型（2,400 美元）花费的两倍。

OpenAI 的非推理 GPT-4o 模型评估成本仅为 108.85 美元，而 Claude 3.6 Sonnet（Claude 3.7 Sonnet 的非推理前身）的评估成本仅为 81.41 美元。

为什么推理模型的测试成本如此之高？主要是因为它们会生成大量的 token。根据 Artificial Analysis 的数据，OpenAI 的 o1 在基准测试中生成了超过 4400 万个 token，约为 GPT-4o 的八倍。

事实上，，目前绝大多数 AI 企业都通过 token 来收取模型使用费，因此用户可以明确看到这个成本是如何累积起来的。开发了自己的模型基准的 Epoch AI 高级研究员 Jean-Stanislas Denain 表示，现代基准也倾向于从模型中引出大量 token，因为它们包含涉及复杂、多步骤任务的问题。

Denain 告诉 TechCrunch：“尽管如今每个基准测试的问题数量总体上有所减少，但基准测试却更加复杂。它们通常试图评估模型执行现实世界任务的能力，例如编写和执行代码、浏览互联网以及使用计算机。”

他补充说，随着时间的推移，最昂贵的模型的单位 token 成本也越来越高。例如，Anthropic 的Claude 3 Opus在 2024 年 5 月发布时是最昂贵的模型，每百万个输出 token 的成本为 75 美元。OpenAI 的GPT-4.5和o1-pro均于今年早些时候推出，每百万个输出 token 的成本分别为 150 美元和 600 美元。

“由于模型随着时间的推移不断改进，达到特定性能水平的成本也随之大大降低，这是事实。但如果你想在任何时候评估最佳的最大模型，你仍然需要支付更多费用。”

包括 OpenAI 在内的许多 AI 实验室都允许基准测试机构免费或以补贴的方式访问其模型进行测试。但一些专家担忧这可能损害评估的客观性，即使没有证据表明存在操纵行为，仅仅是暗示 AI 实验室参与其中，就有可能损害评估评分的公正性。

AI 初创公司 General Reasoning 的首席执行官 Ross Taylor 质疑道，“从科学的角度来看，如果你发表了一个没人能用相同模型复制的结果，那它还能算是科学吗？”

微信关注我们

原文链接：https://www.oschina.net/news/343911/ai-models-benchmarking-more-expensive

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

OpenAI 将在下周发布多款新模型

OpenAI CEO Sam Altman 近日在回复网友时表示，o3 和 o4-mini 两款新模型会在不久之后发布。而据 The Verge 报道，知名 AI 软件工程师 Tibor Blaho 今天也在新版 ChatGPT 网页中发现了 o4 mini、o4 mini high 和 o3 的相关信息。The Verge 也表示，o3 和 o4 mini 系列都将会在下周推出，除非 OpenAI 调整发布计划。另外，报道还指出 OpenAI 将会在下周推出 GPT-4.1 系列模型，包括更小版本的 GPT-4.1 mini 和 nano 两个版本。知情人士透露，OpenAI 即将要发布一系列新的 AI 模型，并表示 GPT-4.1 将会是多模态模型 GPT-4o 的改进版。

2025-04-11

363

2025年4月10日，“聚力共创加速行业智能跃迁”华为云生态大会2025在芜湖召开。期间，由华为游戏中心主办的云云协同游戏行业论坛成功举办。论坛以“云启鸿蒙，游创未来”为主题，聚焦云平台、AI使能下游戏行业智能化发展，汇聚行业专家、游戏开发者与生态伙伴，围绕鸿蒙游戏生态建设、技术创新、开发者扶持等议题展开深度探讨，加速游戏行业智能化升级。鸿蒙游戏生态迈入新阶段，全场景智能分发助力开发者论坛伊始，华为游戏中心总经理发表了开场致辞，回顾了鸿蒙游戏生态的显著成果。他表示，鸿蒙生态的建设与发展，离不开产业的合作与协同，截至目前，已有500+游戏厂商参与鸿蒙生态建设，上架了超过3700款鸿蒙游戏，鸿蒙游戏正在迈向新纪元。而华为游戏中心将秉承软硬芯云协同的自主创新的底色，持续提供一站式服务支持，助力开发者实现技术跃迁。会上，华为游戏中心高级运营总监也分享了鸿蒙游戏生态的差异化竞争优势，在游戏市场竞争日趋激烈的当下，鸿蒙游戏围绕新机遇、新体验、新服务正在为行业开辟全新赛道。软硬端云的技术协同与创新，促进了鸿蒙游戏的体验提升，同时也为游戏产业催生更多新机遇。通过近场感知技术，多款鸿蒙游戏实现...

2025-04-11

247

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。