
如何高效使用 DeepSeek-R1 这种推理模型?
Together AI 发布了一篇《DeepSeek-R1 Quickstart》有关如何使用DeepSeek-R1的综合指南!DeepSeek-R1 这种推理模型经过专门训练,能够在给出答案前进行逐步思考,这使得它们在复杂的推理任务中表现出色,例如编码、数学、规划、谜题和 AI 智能体的工作流程。对于一个问题,DeepSeek-R1 会输出其思维链/推理过程(以思考 Token 的形式),这些
Together AI 发布了一篇《DeepSeek-R1 Quickstart》有关如何使用DeepSeek-R1的综合指南!
DeepSeek-R1 这种推理模型经过专门训练,能够在给出答案前进行逐步思考,这使得它们在复杂的推理任务中表现出色,例如编码、数学、规划、谜题和 AI 智能体的工作流程。
对于一个问题,DeepSeek-R1 会输出其思维链/推理过程(以思考 Token 的形式),这些 Token 被包含在 <think>
标签中,以及最终的答案。
由于这类模型需要消耗更多的计算资源和 Token 才能实现更好的推理能力,因此它们的输出通常更长,计算速度也更慢,成本也高于没有推理能力的对应模型。
一、Prompt 调优以获得最佳结果
推理模型(如 deepseek-r1、o1、o3-mini等)擅长根据已知信息进行逻辑推理和问题求解,而非推理模型(deepseek-v3、gpt-4o、claude-3.5-sonnet等)则更侧重于信息检索和模式匹配。下面我们提供一份指南,帮助你充分发挥 DeepSeek-R1 的性能:
-
清晰且具体的提示语 (prompts): 使用简洁明了的语言编写指令,明确表达你的需求。复杂冗长的提示语往往效果不佳。
-
采样参数: 建议将
temperature
(温度系数) 设置在 0.5-0.7 之间 (推荐值 0.6),以避免模型产生重复或不连贯的输出。同时,top-p
(概率截断) 建议设置为 0.95。 -
避免使用系统提示 (system prompt): 不要添加额外的系统提示语,所有指令都应包含在用户提示语中。
-
避免使用少量样本提示 (few-shot prompting): 不要在提示语中提供任何示例,因为这会降低模型的性能。相反,请详细描述你希望模型解决的问题、执行的任务以及输出的格式。如果确实需要提供示例,请确保示例与你的提示语要求高度一致。
-
组织你的提示语: 使用清晰的标记 (例如 XML 标签、Markdown 格式或带有标签的段落) 来分解提示语的不同组成部分。 这种结构化的组织方式有助于模型正确理解和处理你的每一个请求。
-
设置明确的要求: 当你的请求存在特定限制或标准时,请明确地进行说明 (例如 “每行文本的朗读时间不应超过 5 秒…”)。 无论是预算限制、时间限制还是特定的格式要求,都应清晰地概述这些参数,以便引导模型生成符合要求的回复。
-
清晰地描述输出: 详细描述你期望的输出结果。 描述具体的特征或质量,以便模型生成完全符合你需求的响应,并朝着满足这些标准的方向努力。
-
多数投票选择回复: 在评估模型性能时,建议生成多个解决方案,然后选择出现频率最高的结果。
-
避免使用思维链提示 (chain-of-thought prompting): 由于这类模型在回答问题之前会自主进行推理,因此无需指示它们“逐步思考……”
-
数学任务: 对于数学问题,建议在提示语中添加如下指令:“请逐步进行逻辑推理,并将最终答案置于 \boxed{} 中。”
-
强制使用
<think>
标签: 极少数情况下,DeepSeek-R1 可能会跳过思考过程,从而对模型性能产生负面影响。 在这种情况下,模型输出的响应将不会以<think>
标签开头。 如果你遇到此问题,可以尝试引导模型以<think>
标签开头。
二、应用场景
-
评估其他 大语言模型 (Benchmarking other LLMs)
评估 大语言模型 响应的上下文理解能力,这在需要严格验证的领域(如法律、金融和医疗保健)中尤为重要。
-
代码审查 (Code Review)
执行全面的代码分析,并针对大型代码库提出改进建议。
-
战略规划 (Strategic Planning)
制定详细的计划,并根据具体的任务需求选择合适的 AI 模型。
-
文档分析 (Document Analysis)
处理非结构化文档,并识别多个来源之间的模式和关联。
-
信息提取 (Information Extraction)
从大量非结构化信息中高效地提取相关数据,非常适合 RAG 系统。
-
歧义消除 (Ambiguity Resolution)
有效地解释不明确的指令,并在需要时主动寻求澄清,而不是直接进行猜测。
三、上下文和成本
在使用推理模型时,至关重要的是在上下文窗口中保持足够的空间,以便模型能够充分进行推理。推理 Token 的生成数量会因任务的复杂程度而异——简单的问题可能只需要几百个 Token,而复杂的挑战可能需要数万个 Token。
成本和延迟管理是使用这些模型时需要重点考虑的因素。为了有效控制资源使用,可以使用 max_tokens
参数来限制生成的 Token 总数。
虽然限制 Token 数量可以降低成本和延迟,但也可能会影响模型对复杂问题进行充分推理的能力。因此,建议根据具体的应用场景和需求来调整这些参数,以便在充分推理和资源利用之间找到最佳平衡点。
四、当前的局限性
目前,在以下通用任务中,DeepSeek-R1 的能力与 DeepSeek-V3、gpt-4o、claude-3.5-sonnet 这种非推理模型相比还有所欠缺:
- 函数调用 (Function calling)
- 多轮对话 (Multi-turn conversation)
- 复杂角色扮演 (Complex role-playing)
- JSON 输出 (JSON output)。
这是因为长时间的 思维链 (Chain-of-Thought, CoT) 强化学习训练并未针对这些通用任务进行优化。因此,对于这些任务,建议使用其他模型。
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料。包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
😝有需要的小伙伴,可以VX扫描下方二维码免费领取🆓
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程扫描领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程扫描领取哈)
👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程扫描领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程扫描领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程扫描领取哈)
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓
更多推荐
所有评论(0)