您现在的位置是:首页 > 文章详情

OpenAI 开源医疗大模型测试评估集 HealthBench

日期:2025-05-13点击:269

OpenAI开源了专门面向医疗大模型的测试评估集——HealthBench。

据介绍,该测试集的5000段核心测试对话,全部由来自60个国家/地区的26个专业262名医生打造,极大增强了该测试集的难度、真实性以及丰富度。并且采用了多轮对话测试,而不是简单的答题或选择题模式。

开源地址:https://github.com/openai/simple-evals

OpenAI表示,这262名医生是从1021位医生多轮测试中严格筛选出来的,在数据收集过程中,还会持续对医生输入的质量进行审查,依据自动化质量指标和对评分标准的审核,对医生团队进行轮换,确保数据的高质量。

HealthBench的示例被划分为7个主题和5个轴。7个主题分别为紧急转诊、情境寻求、全球健康、健康数据任务、专业定制沟通、不确定性下的响应和响应深度,每个主题都聚焦于现实世界健康交互的重要方面,评估模型在相应场景下的表现。

5个轴包括准确性、完整性、沟通质量、情境感知和指令遵循,用于衡量模型行为的不同维度,使评估能够更全面、细致地分析模型性能。

测试数据显示,大模型在医疗保健领域的表现有了显著提升。例如,从之前的GPT-3.5 Turbo的16%到GPT-4o的32%,再到o3的60%,整体性能有了显著进步。尤其是小型模型的进步更为突出,GPT-4.1 nano不仅在性能上超越了GPT-4o,而且成本降低了25倍。

原文链接:https://www.oschina.net/news/349572/openai-healthbench
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章