OpenAI 开源医疗大模型测试评估集 HealthBench
OpenAI开源了专门面向医疗大模型的测试评估集——HealthBench。
据介绍,该测试集的5000段核心测试对话,全部由来自60个国家/地区的26个专业262名医生打造,极大增强了该测试集的难度、真实性以及丰富度。并且采用了多轮对话测试,而不是简单的答题或选择题模式。
开源地址:https://github.com/openai/simple-evals
OpenAI表示,这262名医生是从1021位医生多轮测试中严格筛选出来的,在数据收集过程中,还会持续对医生输入的质量进行审查,依据自动化质量指标和对评分标准的审核,对医生团队进行轮换,确保数据的高质量。
HealthBench的示例被划分为7个主题和5个轴。7个主题分别为紧急转诊、情境寻求、全球健康、健康数据任务、专业定制沟通、不确定性下的响应和响应深度,每个主题都聚焦于现实世界健康交互的重要方面,评估模型在相应场景下的表现。
5个轴包括准确性、完整性、沟通质量、情境感知和指令遵循,用于衡量模型行为的不同维度,使评估能够更全面、细致地分析模型性能。
测试数据显示,大模型在医疗保健领域的表现有了显著提升。例如,从之前的GPT-3.5 Turbo的16%到GPT-4o的32%,再到o3的60%,整体性能有了显著进步。尤其是小型模型的进步更为突出,GPT-4.1 nano不仅在性能上超越了GPT-4o,而且成本降低了25倍。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
全球首个 AI 设计 Agent —— Lovart.ai 发布 Beta 版本
Lovart.ai 号称是全球首个 AI 设计 Agent,刚刚发布了 Beta 版本, 据介绍,Lovart.ai 将「深度思考」的理念引入到了 AI 图像生成领域。用户只需描述需求,它会进逐步地推理和思考来分解和理解你的任务需求,然后调用合适的模型工具进行创作。而且在一个展开的画布中直接呈现,还能随时修改。 Lovart.ai 集成 GPT image-1、Flux Pro、OpenAI-o3、Gemini Imagen 3、Kling AI、Tripo AI、Suno AI 等市面上主流的多模态工具,一站式调用,在一个画布内即可完成你的所有图像、视频生成和设计需求。 详情查看:https://www.lovart.ai/
-
下一篇
EloqKV —— 下一代分布式键值数据库
EloqKV 是一个基于 Data Substrate 构建的解耦、分布式数据库,Data Substrate 是 EloqData 为云时代开发的创新数据库基础。 每个 EloqKV 实例包括一个与 Redis 协议兼容的前端,与核心 TxService 一起部署以处理数据操作。逻辑上独立的 LogService 处理预写日志(WAL)以确保持久性,而持久化存储服务管理内存状态检查点和冷数据存储。 在 EloqKV 中,TxService 负责并发控制,确保事务操作的一致性。日志服务可以复制日志并将其分布在不同的可用区(AZ)中,以提供对 AZ 级故障的弹性。存储服务支持各种持久化存储引擎,包括本地选项如 RocksDB、远程集群如 Cassandra,以及云存储解决方案如 AWS DynamoDB。这个持久化存储存储冷数据以应对缓存未命中,并在节点故障时提供高可用性。 超越缓存,拥抱事务 与许多分布式键值存储不同,EloqKV 完全支持 ACID(原子性、一致性、隔离性、持久性)特性。它支持分布式事务。这解锁了前所未有的功能,使你能够: 摒弃双系统:告别繁琐的 MySQL + ...
相关文章
文章评论
共有0条评论来说两句吧...