文章:TumorChain: Interleaved Multimodal Chain-of-Thought Reasoning for Traceable Clinical Tumor Analysis

代码:https://github.com/ZJU4HealthCare/TumorChain

单位:浙江大学、阿里巴巴达摩院、湖畔实验室、上海胰腺疾病研究所、中国医科大学附属盛京医院、中山大学肿瘤防治中心


一、问题背景

当前医疗大模型在肿瘤3D CT分析中面临三大核心瓶颈:

  1. 肿瘤专项能力缺失通用医疗模型只擅长报告生成、粗检测,无法把影像发现与TNM分期、淋巴结转移、病理分级等临床终点可靠关联,难以支撑肿瘤决策。

  2. 专用数据极度稀缺公开医疗数据集多为2D、单选/简答格式,缺少逐步骤推理链与区域级因果标注,细粒度器官子结构与文本推理常错位,易生成错误医学结论。

  3. 推理深度严重不足多数模型只处理2D图像、单步推理,无法应对3D CT复杂空间结构;推理链构建与评估缺失,结果不可追溯、不可解释。

临床肿瘤诊断严格遵循影像发现 → 印象判断 → 病理结论的逻辑链,现有AI完全无法复现这一关键流程。

二、方法创新(核心亮点)

TumorChain的创新围绕数据、模型、推理、评估四大维度,完整复刻临床医生诊断逻辑,是肿瘤多模态AI的范式级突破。

1. 数据集创新:TumorCoT-1.5M——最大肿瘤思维链数据集

  • 覆盖肝、胰、胃、结肠、食管五大消化器官肿瘤。

  • 包含41059例3D CT、10708份放射报告、病理报告,构建150万条思维链标注VQA样本

  • 覆盖四大临床任务:器官/肿瘤定位、病灶属性分析(形状/边界/密度/数量)、TNM病理预测、CoT报告生成。

  • 采用多智能体+知识图谱驱动引擎构建,放射与病理专家交叉审核,数据可用率95.88%,高质量率97.85%。

2. 模型架构创新:混合模型协同优化(HCO)

TumorChain由五大模块紧密耦合,实现全局-局部视觉-语言对齐:

  1. 3D视觉编码器:处理3D CT体积数据,输出全局视觉Token。

  2. 器官分割专家:自动分割器官Mask,提供精准ROI区域。

  3. 辅助分类模型:判断器官正常/异常,强化视觉编码器判别力。

  4. MLP投射器:将视觉特征对齐到大语言模型空间。

  5. 大语言模型:执行多模态整合与高阶临床推理。

3. 推理机制创新:器官引导迭代交错推理(IIR)

这是TumorChain最核心突破,让AI像医生一样反复回看、逐步验证

  1. 初始推理:LLM基于全局CT Token与问题给出初步判断。

  2. 交错自省与器官定位:提取关键词→定位目标器官→获取局部视觉Token→构建增强提示。

  3. 迭代因果推理:把局部特征喂回LLM,多轮验证相关器官,直到无新ROI,输出精炼推理链。

全程实现影像证据锚定 → 结论聚合 → 多轮自修正 → 病理预测,彻底解决单步推理草率、幻觉频发的问题。

4. 评估体系创新:TumorChain-Eval可追溯评分

首次把肿瘤推理拆成三级逻辑链,逐阶段打分:

  • 发现链(FC):客观影像事实。

  • 印象链(IC):中级临床判断。

  • 长推理链(LRC):高阶病理结论。 用主体-关系-客体三元组量化评分,精准衡量推理逻辑正确性,而非只看最终答案。

三、实验结果

TumorChain在自建TumorCoT-1.5M与公开DeepTumorVQA上全面碾压主流模型。

1. 主基准结果(TumorCoT)

  • TumorChain-7B平均准确率**84.41%**,大幅超越GPT-5-mini、Claude3、Qwen2.5-VL、Lingshu、RadFM等所有基线。

  • 器官定位接近满分(99.97%),病灶属性、TNM预测、报告生成均为SOTA。

  • 思维链评分CoTₑ=58.33,远超开源医疗模型,接近GPT-5-mini水平。

2. 泛化能力(DeepTumorVQA)

  • 病灶识别准确率**73.30%**,平均准确率超第二名14.84%。

  • 肝、胰、结肠三器官平均准确率**67.40%**,零样本泛化能力极强。

3. 消融实验

  • 同时开启CoT+IIR,整体精度提升**5.64%**。

  • 分类损失权重α=1.0时效果最优。

  • 用TumorCoT微调任意基线模型,精度均大幅提升,验证数据价值。

四、优势与局限

核心优势

  1. 临床可追溯:完整“发现→印象→病理”推理链,每一步有依据。

  2. 低幻觉:迭代交错推理+局部特征锚定,大幅减少错误医学结论。

  3. 3D专项适配:原生支持3D CT体积数据,突破2D模型空间理解瓶颈。

  4. 全流程覆盖:从定位、属性到TNM分期、报告生成,一站式完成肿瘤分析。

  5. 数据高质量:专家审核、知识图谱约束,可用率与高质量率双高。

局限

  1. 目前仅覆盖五大消化器官,暂未扩展到肺、乳腺、脑等肿瘤。

  2. 小病灶(<2cm)、器官边界处病灶仍存在少量漏检。

  3. 肿瘤压迫邻近器官时,偶尔出现原发器官误判。

  4. 推理速度比单步模型略慢(每样本增加约2.5秒)。

五、一句话总结

TumorChain通过交错式多模态思维链推理+全球最大肿瘤专用数据集,首次实现3D CT肿瘤分析从影像到病理的全流程可追溯、低幻觉、高精度推理,为临床肿瘤AI落地提供可靠、可解释的新范式。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐