从静态到动态:下一代医学大模型如何实现上下文感知和适应性推理 - 哈佛医学院发布医疗大模型新范式
医疗基础模型,包括训练有素的临床笔记语言模型、医学图像上的视觉语言模型以及电子健康记录上的多模态模型,能够总结临床笔记、回答医学问题并协助决策。为了适应新的人群、专业或环境,通常需要对模型进行微调、谨慎提示或从知识库检索。这可能不切实际,并且限制了它们解释不熟悉输入和调整到训练期间未表示的临床情境的能力。因此,模型容易出现上下文错误,预测看似合理但未能考虑关键的患者特定或上下文信息。这些错误源于当

摘要
医疗基础模型,包括训练有素的临床笔记语言模型、医学图像上的视觉语言模型以及电子健康记录上的多模态模型,能够总结临床笔记、回答医学问题并协助决策。为了适应新的人群、专业或环境,通常需要对模型进行微调、谨慎提示或从知识库检索。这可能不切实际,并且限制了它们解释不熟悉输入和调整到训练期间未表示的临床情境的能力。因此,模型容易出现上下文错误,预测看似合理但未能考虑关键的患者特定或上下文信息。这些错误源于当前模型在动态地调整其医疗护理不断演变的上下文行为方面的根本限制。
在这篇文章中,我们概述了医疗人工智能中上下文切换的愿景:能够在不重新训练的情况下动态调整其推理的模型,以适应新的专业、人群、工作流程和临床角色。上下文切换可以让生成式模型根据患者的生物学、环境或疾病定制输出;多模态模型整合结构化和非结构化数据,即使某些输入缺失或延迟;以及人工智能代理根据任务和上下文选择和组合工具。我们设想上下文切换的人工智能能够跨专业和区域诊断、管理和治疗各种疾病,并扩大医疗服务的获取途径。
核心速览
研究背景
-
研究问题
:这篇文章探讨了如何在医学人工智能(AI)中实现上下文切换,使模型能够在不重新训练的情况下动态调整其推理和行为,以适应不同的临床专业、人群、工作流程和临床角色。
-
研究难点
:该问题的研究难点包括:现有模型在处理新的临床任务或标签分布时表现不佳;依赖手工干预的限制模型的扩展性和实用性;以及模型在处理复杂临床情境时的局限性。
-
相关工作
:相关工作包括预训练模型在大规模未标记数据上进行训练,然后在特定任务的标记数据上进行微调的方法。然而,这种方法在面对分布变化时效果不佳,且难以扩展到所有可能的临床设置。
研究方法
这篇论文提出了一种实现医学AI上下文切换的方法,具体来说,
-
数据策略
:首先,数据策略必须嵌入来自患者级别数据和医学知识的上下文特定信号,包括临床指南和护理实践。这可以通过与领域专家合作构建精心设计的提示来实现。
-
模型架构
:其次,模型架构必须支持测试时适应性,通过检测和响应上下文差异(如数据可用性、用户角色或疾病设置)来实现。这可能涉及使用注意力机制、不确定性感知的融合技术和基于任务的模态专家混合模型。
-
评估框架
:最后,评估框架必须反映现实世界护理的可变性,并评估模型在不同上下文中的适应性。尽管不可能在每种专业、人群和工作流程的组合上进行训练,但评估可以揭示失败模式并指导更通用系统的开发。

实验设计
论文中没有详细描述具体的实验设计,但提到了一些相关的实验和方法,例如:
-
多模态模型
:设计用于处理和整合多种数据类型的多模态模型,包括结构化的电子健康记录(EHR)、非结构化的临床笔记、医学知识、实验室测试结果、影像模态(如放射学和病理学)和基因组数据。
-
生成模型
:使用条件生成架构,输出根据结构化提示、患者特征或其他上下文信号进行条件化。常见的后端包括基于Transformer的解码器、扩散模型或变分自编码器。
-
模块化代理系统
:结合多模态学习和生成建模的思想,提供模块化基础以实现上下文切换。这些系统中的不同子模型被训练以在特定任务、数据模态或临床域中进行专业化,并被协调以解决需要上下文特定适应的问题。
结果与分析
-
多模态模型的上下文切换
:通过动态地在推理时使用不同的数据模态,多模态模型可以根据临床设置和可用输入进行调整。例如,当幻灯片可用时,模型可能依赖于组织病理学图像来分类肿瘤,而在成像缺失时转向实验室值和临床笔记。
-
生成模型的上下文感知输出
:生成模型可以根据临床设置、用户背景和生物医学信息规模调整其输出。例如,生成患者指令的模型应根据接收者是专科医生、医学实习生还是健康素养有限的患者来调整其语气、词汇和细节水平。
-
模块化代理系统的上下文切换
:通过动态路由输入到专门的组件,模块化代理系统可以根据上下文激活最相关的专家。例如,协调心血管风险评估的代理可能会激活一个子代理来提取结构化患者历史,另一个子代理来综合实验室结果,第三个子代理来生成针对临床医生或患者的摘要。
总体结论
这篇论文强调了上下文切换在下一代医学AI中的核心设计原则。通过允许模型在测试时动态调整其任务、临床设置和患者人群,未来的系统将超越狭窄的静态工具,向更匹配临床实践复杂性和变异性的通用系统转变。这种转变将使医学AI能够在不手动调整的情况下识别和响应变化,从而在广泛的医疗系统中可靠地运行。

论文评价
优点与创新
-
全面的视角
:论文提出了医疗AI的上下文切换概念,强调了模型在不重新训练的情况下动态调整其推理和输出的重要性。
-
多模态模型的动态适应
:详细探讨了多模态模型如何在推理时根据临床设置和可用输入动态调整不同数据类型的使用。
-
生成式模型的上下文感知输出
:讨论了生成式模型如何根据临床设置、用户背景和生物医学信息规模调整其输出。
-
模块化代理模型
:介绍了混合架构,如AI代理和专家混合系统(MoE),这些系统通过模块化设计实现上下文切换。
-
推理模型的上下文切换
:提出了推理模型如何通过调整推理步骤的序列和结构来实现上下文切换。
-
实际应用场景
:提供了多个临床场景,展示了上下文切换在医学领域的潜在应用,如跨专业和疾病上下文的诊断和治疗。
不足与反思
-
数据策略的限制
:论文提到,当前模型在处理分布偏移时表现不佳,特别是在涉及不同疾病、人群或护理设置的情况下。
-
提示工程和微调的局限性
:尽管提示工程和微调可以提高模型在某些任务上的性能,但它们在实时设置中的适用性有限,且依赖于高质量的数据。
-
隐私和安全问题
:共享基于患者数据的模型存在隐私泄露和再识别的风险,限制了跨机构协作模型开发的可能性。
-
评估框架的不足
:现有的评估框架难以反映现实世界护理的变异性,需要新的动态基准来评估模型在不同上下文中的适应性。
-
模型泛化能力的挑战
:确保模型在未见过的上下文中也能表现良好是一个重大挑战,需要生成新的动态基准来评估模型的泛化能力。
关键问题及回答
问题1:论文中提到的“上下文切换”在医学AI中的具体定义是什么?它有哪些关键特征?
上下文切换在医学AI中指的是模型能够在不重新训练的情况下,实时调整其推理和行为,以适应不同的临床专业、人群、工作流程和临床角色。其关键特征包括:
-
动态适应性
:模型能够根据临床环境的变化(如专业变更、患者人群变化、数据可用性变化等)动态调整其行为。
-
实时推理
:模型在推理过程中能够识别和应用上下文特定的知识和规则,而不是仅仅依赖于预先训练的模式。
-
泛化能力
:模型能够在面对新的临床任务或数据分布时表现良好,而不需要针对每个新场景重新训练。
-
模块化设计
:模型采用模块化设计,包含多个子模型或专家系统,每个子模型专注于特定任务或数据模态,能够在运行时根据上下文动态激活或切换。
问题2:论文中提到的多模态模型在实现上下文切换时面临哪些技术挑战?如何解决这些挑战?
-
数据类型动态选择
:多模态模型需要在推理时动态选择最相关的数据类型(如影像、文本、实验室结果等)。解决这一挑战的方法包括使用注意力机制进行模态选择、不确定性感知的融合以及基于任务和上下文的模态专家混合。
-
数据不完整和异步
:现实世界中的医疗数据往往是不完整和异步的,模型需要能够处理这种情况。解决方案包括使用门控或掩码策略来处理缺失数据,以及采用模块化编码和共享潜在空间来支持新模态的扩展。
-
跨模态推理
:模型需要能够跨模态进行推理,结合不同模态的信息进行综合判断。这可以通过对齐潜在表示和使用跨模态注意力机制来实现。
问题3:论文中提到的生成式模型在生成上下文感知输出时有哪些具体应用?这些应用如何体现上下文切换的能力?

-
患者轨迹生成
:生成式模型可以生成患者的健康轨迹,根据患者的临床信息和时间序列数据预测其健康状况。这种应用体现了模型能够根据患者的实时数据和上下文动态调整输出。
-
医疗图像生成
:模型可以生成新的医疗图像,如合成MRI或CT扫描图像。这种应用展示了模型在生成内容时能够考虑临床设置和患者背景。
-
自由文本解释
:生成式模型可以生成对医疗文本的解释,帮助医生理解复杂的医学文献或临床记录。这种应用表明模型能够根据用户的需求和上下文调整输出结构和内容。
这些应用展示了生成式模型在生成上下文感知输出时的强大能力,能够根据不同的临床设置和用户需求动态调整其输出,从而实现上下文切换。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多推荐


所有评论(0)