Together AI 发布了一篇《DeepSeek-R1 Quickstart》有关如何使用DeepSeek-R1的综合指南!

DeepSeek-R1 这种推理模型经过专门训练,能够在给出答案前进行逐步思考,这使得它们在复杂的推理任务中表现出色,例如编码、数学、规划、谜题和 AI 智能体的工作流程。

对于一个问题,DeepSeek-R1 会输出其思维链/推理过程(以思考 Token 的形式),这些 Token 被包含在 <think> 标签中,以及最终的答案。

由于这类模型需要消耗更多的计算资源和 Token 才能实现更好的推理能力,因此它们的输出通常更长,计算速度也更慢,成本也高于没有推理能力的对应模型。

在这里插入图片描述

一、Prompt 调优以获得最佳结果

推理模型(如 deepseek-r1、o1、o3-mini等)擅长根据已知信息进行逻辑推理和问题求解,而非推理模型(deepseek-v3、gpt-4o、claude-3.5-sonnet等)则更侧重于信息检索和模式匹配。下面我们提供一份指南,帮助你充分发挥 DeepSeek-R1 的性能:

  • 清晰且具体的提示语 (prompts): 使用简洁明了的语言编写指令,明确表达你的需求。复杂冗长的提示语往往效果不佳。

  • 采样参数: 建议将 temperature (温度系数) 设置在 0.5-0.7 之间 (推荐值 0.6),以避免模型产生重复或不连贯的输出。同时,top-p (概率截断) 建议设置为 0.95。

  • 避免使用系统提示 (system prompt): 不要添加额外的系统提示语,所有指令都应包含在用户提示语中。

  • 避免使用少量样本提示 (few-shot prompting): 不要在提示语中提供任何示例,因为这会降低模型的性能。相反,请详细描述你希望模型解决的问题、执行的任务以及输出的格式。如果确实需要提供示例,请确保示例与你的提示语要求高度一致。

  • 组织你的提示语: 使用清晰的标记 (例如 XML 标签、Markdown 格式或带有标签的段落) 来分解提示语的不同组成部分。 这种结构化的组织方式有助于模型正确理解和处理你的每一个请求。

  • 设置明确的要求: 当你的请求存在特定限制或标准时,请明确地进行说明 (例如 “每行文本的朗读时间不应超过 5 秒…”)。 无论是预算限制、时间限制还是特定的格式要求,都应清晰地概述这些参数,以便引导模型生成符合要求的回复。

  • 清晰地描述输出: 详细描述你期望的输出结果。 描述具体的特征或质量,以便模型生成完全符合你需求的响应,并朝着满足这些标准的方向努力。

  • 多数投票选择回复: 在评估模型性能时,建议生成多个解决方案,然后选择出现频率最高的结果。

  • 避免使用思维链提示 (chain-of-thought prompting): 由于这类模型在回答问题之前会自主进行推理,因此无需指示它们“逐步思考……”

  • 数学任务: 对于数学问题,建议在提示语中添加如下指令:“请逐步进行逻辑推理,并将最终答案置于 \boxed{} 中。”

  • 强制使用 <think> 标签: 极少数情况下,DeepSeek-R1 可能会跳过思考过程,从而对模型性能产生负面影响。 在这种情况下,模型输出的响应将不会以 <think> 标签开头。 如果你遇到此问题,可以尝试引导模型以 <think> 标签开头。

二、应用场景

  • 评估其他 大语言模型 (Benchmarking other LLMs)

    评估 大语言模型 响应的上下文理解能力,这在需要严格验证的领域(如法律、金融和医疗保健)中尤为重要。

  • 代码审查 (Code Review)

    执行全面的代码分析,并针对大型代码库提出改进建议。

  • 战略规划 (Strategic Planning)

    制定详细的计划,并根据具体的任务需求选择合适的 AI 模型。

  • 文档分析 (Document Analysis)

    处理非结构化文档,并识别多个来源之间的模式和关联。

  • 信息提取 (Information Extraction)

    从大量非结构化信息中高效地提取相关数据,非常适合 RAG 系统。

  • 歧义消除 (Ambiguity Resolution)

    有效地解释不明确的指令,并在需要时主动寻求澄清,而不是直接进行猜测。

三、上下文和成本

在使用推理模型时,至关重要的是在上下文窗口中保持足够的空间,以便模型能够充分进行推理。推理 Token 的生成数量会因任务的复杂程度而异——简单的问题可能只需要几百个 Token,而复杂的挑战可能需要数万个 Token。

成本和延迟管理是使用这些模型时需要重点考虑的因素。为了有效控制资源使用,可以使用 max_tokens 参数来限制生成的 Token 总数。

虽然限制 Token 数量可以降低成本和延迟,但也可能会影响模型对复杂问题进行充分推理的能力。因此,建议根据具体的应用场景和需求来调整这些参数,以便在充分推理和资源利用之间找到最佳平衡点。

四、当前的局限性

目前,在以下通用任务中,DeepSeek-R1 的能力与 DeepSeek-V3、gpt-4o、claude-3.5-sonnet 这种非推理模型相比还有所欠缺:

  • 函数调用 (Function calling)
  • 多轮对话 (Multi-turn conversation)
  • 复杂角色扮演 (Complex role-playing)
  • JSON 输出 (JSON output)。

这是因为长时间的 思维链 (Chain-of-Thought, CoT) 强化学习训练并未针对这些通用任务进行优化。因此,对于这些任务,建议使用其他模型。


如何学习AI大模型 ?

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料。包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

😝有需要的小伙伴,可以VX扫描下方二维码免费领取🆓
在这里插入图片描述

👉1.大模型入门学习思维导图👈

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。

对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程扫描领取哈)
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
在这里插入图片描述
在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程扫描领取哈)
在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程扫描领取哈)
在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程扫描领取哈)
在这里插入图片描述
在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程扫描领取哈)
在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐