超模提示词：让普通大模型，拥有超过 O1 Pro、DeepSeek-R1 的多步推理能力！

Debroon

3354人浏览 · 2025-02-26 17:29:41

Debroon · 2025-02-26 17:29:41 发布

超模提示词！！普通大模型，居然能在多步推理上，超过 O1 Pro、DeepSeek-R1 这类慢系统？

怎么超越 R1 的深度推理？

加上提示词，开挂了！

怎么超越 R1 的深度推理？

我写了一个提示词，发现可以让普通大模型，在多步推理上吊打 O1 Pro、R1、医联GPT 等一众慢思考模型。

比如，医疗诊断上：

# 输入（患者症状描述）

## 基本信息
- 年龄：5岁3月
- 性别：女

## 主要症状
1. 发热
   - 持续时间：2天
   - 特点：有畏寒，无寒战抽搐
   - 用药情况：布洛芬混悬液可暂时退热

2. 呼吸道症状
   - 咳嗽
   - 喉间有痰
   - 流清涕
   - 无气急喘息
   - 无呛咳声嘶

3. 消化道症状
   - 呕吐2次（病初）
   - 轻微腹部不适
   - 大便2天未解
   - 食欲较差

## 体格检查
- 咽部充血
- 扁桃体II度肿大
- 双肺呼吸音粗
- 无明显干湿啰音
- 无浅表淋巴结肿大
- 无眼睑浮肿
- 无皮疹及手足硬肿

答案 + 各模型回答：

在这里插入图片描述

O1 Pro：

从病史与体征上看，孩子主要表现为发热、上呼吸道症状（咳嗽、咽部充血、扁桃体肿大、流涕）、少量的消化道症状（呕吐、食欲差、2天未解大便等）。

发热可用布洛芬暂时退烧，咽部充血与扁桃体 II 度肿大提示咽扁桃体炎症明显，咳嗽伴喉间有痰可能存在上呼吸道或支气管黏膜炎症。

Claude 3.7（没有加深度思考）：

这些大模型、真人医生，输出都是上呼吸道感染，都是错的。

我看现在的大模型和RAG算法：

漏诊：都存在严重漏诊（最好也只有42%召回率）
误诊：精确率普遍在30%左右

查看论文结果中最好的情况（Qwen-72b-chat上的"Ours"方法）：

R=46.43%：能发现不到一半的真实疾病
P=35.72%：在给出的诊断中只有约1/3是正确的
F1=40.37%：综合表现仍有较大提升空间

加上提示词，开挂了！

Claude 3.7（没有加深度思考）+ 9位分析师：

在这里插入图片描述

神奇的是，完美命中：急性支气管炎 + 腺病毒感染。

正确答案

主要诊断：
- 急性支气管炎
- 腺病毒感染
并发情况：
- 疑似耐药沃氏葡萄球菌感染【病原学检查结果我没输入，所以不算】

详细分析过程：（同样的问题，o1 Pro、R1 分析不了这种过程出来）

请添加图片描述
我在想，R1、O1 这类模型深度推理也是长逻辑链。

但我用 9 位分析师，直接把这个隐式长逻辑链，分成了 9 个维度 + 辩论一致性 + 超长结构 + 超长逻辑链。

哪怕是普通模型，只需要有很好的遵循能力，也就有了 O1、R1 的多步展开、反思、回溯、自我检验的结构化思维过程。

我试了一下，Qwen2-72B，ta只迭代第一轮，后面直接给结论了

只要完整的遵循，就会比现在的 O1 Pro、R1 会推理的更深、更适合医学诊断。

更有意思的是，我试了一下 Claude 3.7 + 深度思考 + 9位分析师提示词。

好家伙，结果效果不如没有深度思考版本，说明 3.7 自身的深度推理，没我这个显示的好。

如果只是做一轮后，就不修订了，那反而拉低了效果，多轮迭代非常重要，不能省略的。

在这里插入图片描述

不止如此，还能迁移到工业领域，实现性能提升！！

9 位分析师提示词：M-ARC思维定式之殇：大模型在临床推理中的僵化与局限，独家提示词解决线性模式识别、对不寻常细节的捕捉不足

本文所用的最终版本提示词，在文章末尾，在不断迭代。

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

cover

流式补全与 diff 视图同步的工程实现：DeepSeek-V4 代码助手落地踩坑

DeepSeek技术社区

cover

Gemini 结构化输出 JSON mode 生产实践：DeepSeek 护栏与安全对齐的工程解法

DeepSeek技术社区

cover

RAG 混合检索实战：向量+关键词何时能1+1>2，何时反成灾难？

DeepSeek技术社区

所有评论(0)

查看更多评论

Debroon

已为社区贡献5条内容