OpenAI 最新测试:GPT-5 与 Claude 在部分工作中可媲美人类专家
OpenAI 发布了一项新的基准测试,用于比较其AI模型与各行业专业人士的工作表现。
这项测试名为GDPval,是一次初步尝试,旨在评估OpenAI的系统距离在经济价值工作上超越人类有多近。而经济价值工作是OpenAI开发通用人工智能(AGI)的关键环节。
OpenAI 表示,其GPT-5模型以及竞争对手Anthropic公司的Claude Opus 4.1“已经接近行业专家的工作质量”。
这并不意味着OpenAI的模型会立刻取代人类工作。尽管一些CEO预测AI在几年内就会取代人类,但OpenAI承认GDPval目前只涵盖人们实际工作中有限的一部分任务。不过,这是该公司用来衡量AI向这一里程碑迈进的最新方式之一。
GDPval基于美国GDP贡献最大的九个行业,包括医疗、金融、制造业和政府等领域。测试覆盖了44种职业,从软件工程师到护士再到记者。
在首个版本GDPval-v0中,OpenAI邀请资深专业人士对比AI生成的报告与其他专业人士的成果,并挑选出更优者。
例如,某项任务要求投行人员为“最后一公里配送行业”制作竞争格局分析,并与AI生成的报告进行对比。OpenAI随后将AI模型在全部44个职业中对抗人类报告的“胜率”进行平均计算。
结果显示,GPT-5-high(高算力版本GPT-5)在40.6%的情况下被评为优于或与行业专家持平。而Anthropic的Claude Opus 4.1模型则在49%的任务中被评为不输于行业专家,这一表现超过了OpenAI的模型。
OpenAI对此解释称,之所以Claude得分更高,部分原因是其倾向于生成更美观的图表,而非纯粹性能更优。
需要说明的是,大多数职业的工作远不止提交研究报告,而这却是GDPval-v0所测试的全部内容。OpenAI承认这一点,并计划在未来开发更全面的测试,涵盖更多行业和交互式工作流程。
尽管如此,OpenAI仍认为GDPval的进展具有重要意义。OpenAI首席经济学家Aaron Chatterji在接受采访时表示,GDPval的测试结果表明,这些岗位上的人们可以利用AI模型节省时间,从而专注于更有意义的工作。
“因为模型在某些事情上已经变得很擅长,随着能力的提升,人们可以越来越多地把部分工作交给模型,去做潜在更有价值的事情,”Chatterji说。
OpenAI评估负责人Tejal Patwardhan表示,她对GDPval的进步速度感到鼓舞。Patwardhan指出,约15个月前发布的GPT-4o模型得分仅为13.7%(胜出或持平人类),而GPT-5的成绩几乎提高了三倍。她预计这一趋势还会继续。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
百度智能云 Qianfan-VL 系列模型重磅开源!全尺寸领域增强效果优异,全自研芯片计算!
今天,百度智能云千帆正式推出全新视觉理解模型——Qianfan-VL,并全面开源!该系列模型包含3B、8B和70B三个尺寸版本,是面向企业级多模态应用场景,进行了深度优化的视觉理解大模型。即日起至10月10日,用户可在百度智能云千帆平台免费体验8B、70B模型。Qianfan-VL不仅具备出色的基础通用能力,还针对产业落地中的高频需求,如OCR和教育垂直场景做了专项强化,使其在实际应用中表现更加卓越。 Qianfan-VL系列模型是由百度智能云千帆模型研发团队,基于开源模型进行开发,并在百度自研昆仑芯 P800上完成全流程计算任务。昆仑芯P800提供了强大的算力支撑,确保模型能够高效处理海量数据与复杂算法,同时支持单任务5000卡规模的并行计算。这一结合不仅优化了模型计算的效率,更使得模型在性能表现上达到了新的高度,在通用和垂类任务评测中展现出SOTA水平。Qianfan-VL模型具备三大特点: 多尺寸模型满足不同场景需求:提供3B、8B、70B三种规格的模型,让不同规模的企业和开发者都能找到合适的解决方案。 提供思考推理能力:8B和70B模型支持通过特殊token激活思维链能力,覆盖...
-
下一篇
Ollama 上线 “Web search” API,为 LLM 集成实时网络搜索能力
Ollama 宣布推出 “Web search”API,让大语言模型能够实时访问互联网信息,提升回答的准确性并减少幻觉。 该功能支持 REST API,并已集成到 Ollama 的 Python 与 JavaScript 库中,开发者可以在应用中快速调用。同时,Ollama 还提供 web fetch 接口,用于获取指定网页的完整内容(标题、正文和链接)。 开发者可以基于 web search 与 web fetch 构建智能搜索代理,让模型在对话中自动调用外部信息。此外还支持在 MCP(Model Context Protocol) 环境下配置该功能,并支持集成到 Cline、Codex 等客户端中。 Ollama 为用户提供了免费试用额度,若需更高吞吐量则需升级到付费方案。官方建议在模型上下文长度较大的情况下使用(如 32k tokens),以便更好地处理检索结果。 这意味着 Ollama 的模型将能结合实时网络搜索,提供更准确、最新的回答,为开发者构建 AI 应用带来更强的工具支持。
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- 设置Eclipse缩进为4个空格,增强代码规范
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Dcoker安装(在线仓库),最新的服务器搭配容器使用
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Crontab安装和使用
- Red5直播服务器,属于Java语言的直播服务器
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- CentOS7设置SWAP分区,小内存服务器的救世主
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果