如何高效使用 DeepSeek-R1 这种推理模型？

Together AI 发布了一篇《DeepSeek-R1 Quickstart》有关如何使用DeepSeek-R1的综合指南！DeepSeek-R1 这种推理模型经过专门训练，能够在给出答案前进行逐步思考，这使得它们在复杂的推理任务中表现出色，例如编码、数学、规划、谜题和 AI 智能体的工作流程。对于一个问题，DeepSeek-R1 会输出其思维链/推理过程（以思考 Token 的形式），这些

黑客-小千

1155人浏览 · 2025-03-06 10:36:36

黑客-小千 · 2025-03-06 10:36:36 发布

Together AI 发布了一篇《DeepSeek-R1 Quickstart》有关如何使用DeepSeek-R1的综合指南！

DeepSeek-R1 这种推理模型经过专门训练，能够在给出答案前进行逐步思考，这使得它们在复杂的推理任务中表现出色，例如编码、数学、规划、谜题和 AI 智能体的工作流程。

对于一个问题，DeepSeek-R1 会输出其思维链/推理过程（以思考 Token 的形式），这些 Token 被包含在 <think> 标签中，以及最终的答案。

由于这类模型需要消耗更多的计算资源和 Token 才能实现更好的推理能力，因此它们的输出通常更长，计算速度也更慢，成本也高于没有推理能力的对应模型。

在这里插入图片描述

一、Prompt 调优以获得最佳结果

推理模型（如 deepseek-r1、o1、o3-mini等）擅长根据已知信息进行逻辑推理和问题求解，而非推理模型（deepseek-v3、gpt-4o、claude-3.5-sonnet等）则更侧重于信息检索和模式匹配。下面我们提供一份指南，帮助你充分发挥 DeepSeek-R1 的性能：

清晰且具体的提示语 (prompts)： 使用简洁明了的语言编写指令，明确表达你的需求。复杂冗长的提示语往往效果不佳。
采样参数： 建议将 temperature (温度系数) 设置在 0.5-0.7 之间 (推荐值 0.6)，以避免模型产生重复或不连贯的输出。同时，top-p (概率截断) 建议设置为 0.95。
避免使用系统提示 (system prompt)： 不要添加额外的系统提示语，所有指令都应包含在用户提示语中。
避免使用少量样本提示 (few-shot prompting)： 不要在提示语中提供任何示例，因为这会降低模型的性能。相反，请详细描述你希望模型解决的问题、执行的任务以及输出的格式。如果确实需要提供示例，请确保示例与你的提示语要求高度一致。
组织你的提示语： 使用清晰的标记 (例如 XML 标签、Markdown 格式或带有标签的段落) 来分解提示语的不同组成部分。这种结构化的组织方式有助于模型正确理解和处理你的每一个请求。
设置明确的要求： 当你的请求存在特定限制或标准时，请明确地进行说明 (例如 “每行文本的朗读时间不应超过 5 秒…”)。无论是预算限制、时间限制还是特定的格式要求，都应清晰地概述这些参数，以便引导模型生成符合要求的回复。
清晰地描述输出： 详细描述你期望的输出结果。描述具体的特征或质量，以便模型生成完全符合你需求的响应，并朝着满足这些标准的方向努力。
多数投票选择回复： 在评估模型性能时，建议生成多个解决方案，然后选择出现频率最高的结果。
避免使用思维链提示 (chain-of-thought prompting)： 由于这类模型在回答问题之前会自主进行推理，因此无需指示它们“逐步思考……”
数学任务： 对于数学问题，建议在提示语中添加如下指令：“请逐步进行逻辑推理，并将最终答案置于 \boxed{} 中。”
强制使用 <think> 标签： 极少数情况下，DeepSeek-R1 可能会跳过思考过程，从而对模型性能产生负面影响。在这种情况下，模型输出的响应将不会以 <think> 标签开头。如果你遇到此问题，可以尝试引导模型以 <think> 标签开头。

二、应用场景

评估其他大语言模型 (Benchmarking other LLMs)

评估大语言模型响应的上下文理解能力，这在需要严格验证的领域（如法律、金融和医疗保健）中尤为重要。
代码审查 (Code Review)

执行全面的代码分析，并针对大型代码库提出改进建议。
战略规划 (Strategic Planning)

制定详细的计划，并根据具体的任务需求选择合适的 AI 模型。
文档分析 (Document Analysis)

处理非结构化文档，并识别多个来源之间的模式和关联。
信息提取 (Information Extraction)

从大量非结构化信息中高效地提取相关数据，非常适合 RAG 系统。
歧义消除 (Ambiguity Resolution)

有效地解释不明确的指令，并在需要时主动寻求澄清，而不是直接进行猜测。

三、上下文和成本

在使用推理模型时，至关重要的是在上下文窗口中保持足够的空间，以便模型能够充分进行推理。推理 Token 的生成数量会因任务的复杂程度而异——简单的问题可能只需要几百个 Token，而复杂的挑战可能需要数万个 Token。

成本和延迟管理是使用这些模型时需要重点考虑的因素。为了有效控制资源使用，可以使用 max_tokens 参数来限制生成的 Token 总数。

虽然限制 Token 数量可以降低成本和延迟，但也可能会影响模型对复杂问题进行充分推理的能力。因此，建议根据具体的应用场景和需求来调整这些参数，以便在充分推理和资源利用之间找到最佳平衡点。

四、当前的局限性

目前，在以下通用任务中，DeepSeek-R1 的能力与 DeepSeek-V3、gpt-4o、claude-3.5-sonnet 这种非推理模型相比还有所欠缺：

函数调用 (Function calling)
多轮对话 (Multi-turn conversation)
复杂角色扮演 (Complex role-playing)
JSON 输出 (JSON output)。

这是因为长时间的思维链 (Chain-of-Thought, CoT) 强化学习训练并未针对这些通用任务进行优化。因此，对于这些任务，建议使用其他模型。

如何学习AI大模型？

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，故此将并将重要的AI大模型资料。包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。
一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

😝有需要的小伙伴，可以VＸ扫描下方二维码免费领取🆓
在这里插入图片描述

👉1.大模型入门学习思维导图👈

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

对于从来没有接触过AI大模型的同学，我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。（全套教程扫描领取哈）
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字，我也为大家准备了视频教程，每个章节都是当前板块的精华浓缩。
在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。（全套教程扫描领取哈）
在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。（全套教程扫描领取哈）
在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。（全套教程扫描领取哈）
在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道，我总结了大模型常考的面试题。（全套教程扫描领取哈）
在这里插入图片描述

👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

😝有需要的小伙伴，可以Vx扫描下方二维码免费领取🆓

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

政务场景落地AI大模型实操deepseek应用方案设计

DeepSeek技术社区

DeepSeek-v3：基于MLA的高效kv缓存压缩与位置编码优化技术

DeepSeek技术社区

使用Unsloth微调DeepSeek-R1蒸馏模型：低显存高效训练实践

DeepSeek技术社区

所有评论(0)

查看更多评论

黑客-小千

@Cairo_A

已为社区贡献10条内容

如何高效使用 DeepSeek-R1 这种推理模型？

黑客-小千

一、Prompt 调优以获得最佳结果

二、应用场景

三、上下文和成本

四、当前的局限性

如何学习AI大模型 ？

所有评论(0)

黑客-小千

如何学习AI大模型？