OpenAI：LLM医疗健康评估基准HealthBench

如何有效评估大型语言模型在医疗健康领域的表现和安全性的问题。论文提出了HealthBench，一个全面且可信赖的评估基准，旨在提高AI模型在医疗健康中的应用效果。

大模型任我行

2216人浏览 · 2025-05-17 08:00:00

大模型任我行 · 2025-05-17 08:00:00 发布

在这里插入图片描述

📖标题：HealthBench: Evaluating Large Language Models Towards Improved Human Health
🌐来源：arXiv, 2505.08775

🌟摘要

🔸我们介绍HealthBench，这是一个开源基准，用于衡量医疗保健中大型语言模型的性能和安全性。HealthBench由模特与个人用户或医疗保健专业人员之间的5000次多回合对话组成。使用262名医生创建的特定于对话的量规来评估反应。与之前的多项选择或简答题基准不同，HealthBench通过48562个独特的量规标准，涵盖多种健康背景（如紧急情况、临床数据转换、全球健康）和行为维度（如准确性、指令遵循、沟通），实现了现实的、开放式的评估。
🔸HealthBench在过去两年的表现反映了稳定的初步进展（GPT-3.5 Turbo的16%与GPT-4o的32%相比）和最近更快的改进（o3得分60%）。较小的型号尤其有所改进：GPT-4.1 nano的性能优于GPT-4o，价格便宜25倍。我们还发布了两个HealthBench变体：HealthBench共识，其中包括通过医生共识验证的模型行为的34个特别重要的维度，以及HealthBench Hard，目前的最高得分为32%。我们希望HealthBench为有益于人类健康的模型开发和应用奠定基础。榜单在https://github.com/openai/simple-evals.

🛎️文章简介

🔸研究问题：如何有效评估大型语言模型在医疗健康领域的表现和安全性的问题。
🔸主要贡献：论文提出了HealthBench，一个全面且可信赖的评估基准，旨在提高AI模型在医疗健康中的应用效果。

📝重点思路

🔸通过设计一套包含48562个独特标准的评估量表，对AI模型生成的响应进行评分，标准由262名医师撰写，确保其反映真实的医疗场景。
🔸使用模型基础评分系统，经过验证的模型与医师的判断一致性较高，确保评估结果的可信度。
🔸HealthBench包含5000个现实对话实例，涵盖七个主题和五个行为维度，允许对不同模型的表现进行详细分析。
🔸论文中引入了HealthBench Consensus和HealthBench Hard两个变种，以更深入地评估模型在特定条件下的表现。

🔎分析总结

🔸研究发现，最新的AI模型在HealthBench上的表现显著提升，但仍存在改进空间，尤其是在处理复杂的健康对话和上下文理解方面。
🔸模型在紧急转诊和专业沟通主题下的表现普遍较好，而在寻求上下文、健康数据任务和全球健康方面则有所不足。
🔸通过与医师评估的比较，发现部分模型在生成响应的质量上超过了无AI辅助的医师，但在某些情境下仍需进一步优化。
🔸HealthBench Hard的结果表明，当前模型在处理高难度任务时的表现仍然较低，显示出未来改进的巨大潜力。