惊喜！实测百川医疗大模型，海量医学数据铸就靠谱医疗助手

今年的1月24日，百川智能发布了首个全场景深度思考模型Baichuan-M1-preview，并解锁了「医疗循证模式」，复杂医疗问题的推理能力大幅提升。

Python编程杰哥

1277人浏览 · 2025-06-17 20:54:37

Python编程杰哥 · 2025-06-17 20:54:37 发布

今年的1月24日，百川智能发布了首个全场景深度思考模型Baichuan-M1-preview，并解锁了「医疗循证模式」，复杂医疗问题的推理能力大幅提升。

尽管是今年才新鲜出炉的。但是在这个大模型发布按月，甚至按周来计算的时代，百川的这个大模型的信息很容易就被淹没在一堆神仙打架的大模型中了。

为什么今天写百川智能呢。因为接到一个医疗AI从业者朋友的要求。

那到底百川智能做了才引起他的这么大的兴趣呢。

先来看看百川发布的一篇公开文章的情况解读。

百川大模型数据总量：20 万亿 tokens，涵盖英文（12T）、中文（4T）、多语言（2T）和代码（2T）。

医学数据来源：

网页数据：通过小模型分类与筛选，提取医学相关内容。

专家精选数据：涵盖医学学术论文、真实病例、医学教材、生物医学知识图谱、临床指南、医学百科等，共计 1T tokens。

数据质量过滤：开发医学质量评分与医学价值评分体系，确保数据的准确性和权威性。

合成医学数据：针对不同数据源设计专用的合成管道。

1）百科/教材/指南：生成问答对，强调 Chain-of-Thought（CoT）推理。

2）真实病例：重构医生的推理过程，包括诊断、治疗和预后（prognosis）分析。

3）知识图谱：将知识图谱中每一个实体（entity）的相关知识转换为自然语言

4）学术论文：提取证据和结论，生成推理路径。

5）在线问答：标准化用户提问并生成详细回答。

百川智能这次是自建了涵盖亿级条目的循证医学知识库，囊括了国内外海量医学论文、权威指南、专家共识、疾病与症状解析、药品说明等专业医疗内容，且以天为单位进行动态更新，及时收录医疗领域的新突破、新进展。

理论上，百川大模型掌握了人类所有的最新的医疗知识。但是能不能顺利用出来，能不能准确回答问题呢？这个就不一定了。因为这个还需要考验大模型基座的能力。而百川的大模型基座能力，在越来越强大的通用大模型发布之后，就可能慢慢变成了整个系统的瓶颈了。

这点只是作者推断，还需要看实战情况来定。

而虽然拥有了数据量庞大的医疗知识库，但是医学知识多样性强、因果关系复杂，尤其叠加了互联网上搜索到的信息后，仍然可能会遇到部分医学数据、医学理论不一致的情况。

全局去重与上采样：减少数据冗余，提升数据质量。

训练模式不明觉厉。

百川将训练过程巧妙分解为「三步」策略——通识提升、医疗基础知识提升、医疗进阶知识提升。

阶段一，让模型掌握基础的语言能力、常识能力。

阶段二，在第一步基础上，进一步强化模型的高阶能力（比如推理、数学等），并显著提升医疗数据比例。这相当于，让一个刚毕业的医学生，上专业课的过程。

阶段三，则进一步提升数据质量和难度，对其更高阶的医疗能力，如推理、逻辑、疑难杂症等，进行深层次优化。

Baichuan-M1-14B-Instruct 在医学相关基准测试中超过 Qwen2.5-72B-Instruct，并与 GPT-4o、Claude-3.5-sonnet 等闭源模型差距缩小。其在罕见病诊断）等复杂任务中，Baichuan-M1 表现出色。

但是这种差距，在最新的claude4，GPT O3 pro等发布之后，又可能会被无情的拉开。

对于医疗领域的专业人士来说，Baichuan-M1-preview 的医疗循证模式首先在临床场景中提供了快速获取跨学科、跨病种复杂临床问题最新科研成果或权威指南的方式，能够辅助疑难病症的诊断和治疗提供，提升临床决策效率。其次在医学科研场景中，能够帮助专业人士迅速检索最前沿、最相关、最权威的研究成果，高效构建完整的领域知识体系，大幅提升科研探索的效率和质量。

对患者来说，他们可以基于医疗循证模式查询通过权威指南和科学研究推理总结的结论，获取第二诊疗意见、提升与医生的沟通质量，以及清晰、广泛的科普支持。

理论上百川模式不只是提升了模型医疗结果的可信度，也为大模型在医疗等高度专业领域的落地应用指明了方向。

王小川也承认：AI 医疗对大模型技术的需求几乎没有上限，其对知识、推理、多模态、情感感知、沟通共情等几乎全部能力都提出了极高的要求。从某种意义上来说，AI 医疗完全可以等同于 AGI。

而用大模型构建「AI 医生」，这注定是一条难走的路。越是难做的事情，越需要有人去实现，做难而正确的事，才能真正地推动 AI 技术的进步。

百川生成了超千亿 token 高质量医疗推理数据、数据形式丰富，包含了医疗复杂决策推理链条、决策依据以及问答对等多种形式。

不过数据再怎么好，最终还是需要临床上实战才能检验的。分别来几个病例测试下。

直接进入百川百小应官网。

标准化病历提取准确，分期正确。

诊断分析清楚，没毛病。

后续建议检查基本还算中肯。

只不过有一项多余了。（HER2（0）就是阴性，不需要再做FISH）

多基因检测和遗传咨询的建议都很中肯，临床上大部分医生考虑大肿块较大可能直接上化疗的，但是基因检测还是有部分患者可能豁免化疗的。。

治疗方案，局部和系统治疗的推荐都中肯，没有大问题。

随访与预后建议也中规中矩，符合临床规范。

总结下：

本次测试乳腺癌真实病例，基本过关，没有原则性的错误。

除了给了一个不必要的FISH检测复核的推荐。其他基本都靠谱。

再来测试个简单的良性病例

病历提取完整，正确无误。

诊断正确，后续检查基本中肯，不过我院穿刺技术过关，0.5cm以上即可穿刺，这里1cm的边界稍微宽了点，但是也应符合国情。

治疗方案基本靠谱。和临床医生给的类似。

预后也准确。甲状腺微小癌预后非常好。

提醒也到位。

总结：

甲状腺4a结节判断基本靠谱。除了对于穿刺时机判断有差别（不同医院水平不同，我们医疗质量分布不均的国情导致，不过理论上可以说明大医院是可以做到0.5cm左右结节穿刺的，做到早诊断早治疗）。

其他基本靠谱。

再来测试一个穿刺病理。这个病理，连ChatGPT的O3都翻车了，没有识别出来这个是穿刺病理。

病理信息提取完整，正确。

诊断分析：

病理分型准确，分子分型准确，预后指标准确。

后续检查建议：

基本准确。关键是注意到了需要手术切除复核病理。但是一楼了血液比如肿瘤标志物等的检查。

治疗方案，手术，全身内分泌治疗，放疗，靶向治疗等分析基本到位。

毕竟这个穿刺的信息量不够，缺少肿块大小，淋巴结状态等很多信息，不能做出最终治疗方案。

预后评估中肯。随访建议准确。

本案例总结：

本次分析准确，到位，除了遗漏了一小点血液检查之外，几乎没错，也注意到了本次是穿刺病理而非最终的术后病理诊断。这点不错。

测试总结。测试3个病例，分别是乳腺癌术后完整诊断，甲状腺4a结节，乳腺癌穿刺后诊断案例。

总体表现可圈可点，测试结果的确配得上一线医疗大模型的水准。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述