构建企业私有RAG大模型: DeepSeek-R1干翻OpenAI-o1-mini，开源部署走起(可商用)

DeepSeek-R1 的诞生将对大模型领域产生深远影响。首先，它在数学推理和代码理解方面的突破，推动了这些领域的技术进步。其次，DeepSeek-R1的成功应用将激励更多行业定制化大模型的需求，促使企业在特定领域开发适应性更强的模型。此外，凭借其高效的推理能力和低成本优势，DeepSeek-R1将推动开源大模型的普及，降低技术门槛，促进更多中小企业的应用。而其在推理效率、内存管理和分布式计算等方

Python官方资料

1260人浏览 · 2025-03-03 16:34:29

Python官方资料 · 2025-03-03 16:34:29 发布

DeepSeek-R1模型以仅占OpenAI o1模型3%-5%的成本，便实现了与o1相当或甚至超越的性能，这一创新成果令人震惊，标志着DeepSeek-R1的诞生可能正在重新定义大模型发展的战略。

前排提示，文末有大模型AGI-CSDN独家资料包哦！

在数学、编程及推理任务方面，DeepSeek-R1已成功达到了与OpenAI o1相媲美的性能。为了支持研究社区的发展，DeepSeek团队开源了DeepSeek-R1-Zero、DeepSeek-R1及基于Llama和Qwen从DeepSeek-R1衍生出的六个精简模型。其中，DeepSeek-R1-Distill-Qwen-32B在多个基准测试中超越了OpenAI-o1-mini，为密集型模型带来了全新的最先进成果。

DeepSeek-R1-Zero与DeepSeek-R1均基于DeepSeek-V3-Base进行训练，而DeepSeek-R1-Distill模型则经过Llama和Qwen的微调，使用DeepSeek-R1生成的样本进行配置，并对分词器做了轻微调整。

DeepSeek-R1及其衍生的六个精简模型在性能评估上表现出了极为出色的结果，在许多方面，R1的表现都超越了V3，成为了行业的标杆。

下表是DeepSeek-R1官网给出评估报告：

官网评估部分截取

从这份测试报告中可以看出，DeepSeek-R1在代码（Code）和数学（Math）领域的表现全面超越了几款闭源模型，特别是OpenAI的o1-mini。报告显示，DeepSeek-R1的性能不仅超越了o1-mini，还全面超过了V3。R1的问世，不仅在国内引起了广泛的关注，也对国际大模型市场产生了巨大冲击，迅速引起了OpenAI等科技巨头的高度关注。

官网评估部分截取

上表是基于Llama和Qwen从DeepSeek-R1衍生出的六个精简模型的测试报告，性能同样亮眼。尤其是DeepSeek-R1-Distill-Qwen-32B模型，各项指标均高于GPT-4o0513、Claude-3.5-Sonnet-1022、o1-mini等三个最受关注的闭源模型。

那么DeepSeek-R1是如何产生的？

DeepSeek-R1的诞生

DeepSeek在推出第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一种通过大规模强化学习 (RL) 训练的模型，无需监督微调 (SFT) 作为初步步骤，在推理方面表现出色。在 RL 的帮助下，DeepSeek-R1-Zero 自然而然地出现了许多强大而有趣的推理行为。然而，DeepSeek-R1-Zero 面临着诸如无休止重复、可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能，他们引入了 DeepSeek-R1，它在 RL 之前整合了冷启动数据。DeepSeek-R1 在数学、代码和推理任务中实现了与 OpenAI-o1 相当的性能。同时公司还从DeepSeek-R1 以及基于 Llama 和 Qwen 从 DeepSeek-R1 中提炼出的六个密集模型。其中DeepSeek-R1-Distill-Qwen-32B 在各种基准测试中均优于 OpenAI-o1-mini。

训练后：基础模型上的大规模强化学习（说明来自DeepSeek-R1）

我们直接将强化学习 (RL) 应用于基础模型，而无需依赖监督微调 (SFT) 作为初步步骤。这种方法允许模型探索解决复杂问题的思路 (CoT)，从而开发出 DeepSeek-R1-Zero。DeepSeek-R1-Zero 展示了自我验证、反思和生成长 CoT 等功能，标志着研究界的一个重要里程碑。值得注意的是，这是第一个公开研究，验证了 LLM 的推理能力可以纯粹通过 RL 来激励，而无需 SFT。这一突破为该领域的未来发展铺平了道路。
我们引入了用于开发 DeepSeek-R1 的流水线。该流水线包含两个 RL 阶段，旨在发现改进的推理模式并与人类偏好保持一致，以及两个 SFT 阶段，作为模型推理和非推理能力的种子。我们相信该流水线将通过创建更好的模型使行业受益。

DeepSeek-R1部署

DeepSeek-R1 基于 DeepSeek-V3-Base 进行训练。所以R1的部署可以参考V3的部署。

DeepSeek-R1-Distill 模型部署

DeepSeek-R1-Distill 模型可以与 Qwen 或 Llama 模型相同的方式使用。我们以DeepSeek-R1-Distill-Qwen-32B为例，讲讲如何使用开源加速工具部署。

模型下载，使用hf-mirror实现下载

cd deepseek-ai``git clone https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

使用vLLM部署，请执行以下命令：

export CUDA_VISIBLE_DEVICES=0,1``vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

使用SGLang部署，请执行以下命令：

export CUDA_VISIBLE_DEVICES=0,1``python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

以vLLM为例进行命令解析：

vllm serve: 这是启动 vLLM 服务的命令，vLLM 用于优化大型语言模型（LLM）的推理效率。
deepseek-ai/DeepSeek-R1-Distill-Qwen-32B: 这是所要加载的模型名称。在这里，指定了 DeepSeek-R1-Distill-Qwen-32B 这个模型，属于 DeepSeek 系列，且经过蒸馏（Distill）处理的版本，适合大规模推理任务。
--tensor-parallel-size 2: 这是设置模型分布式并行的参数，具体指定了分布式计算时的 tensor parallel 大小。值 2 表示将模型分割成两个部分，使用两块 GPU 来共同处理模型的计算，适用于大模型的高效推理。
--max-model-len 32768: 该参数指定了模型最大处理的输入长度，这里设置为 32,768。这个参数决定了模型在处理文本时，能够一次性处理的最大 token 数量。较大的模型长度有助于处理较长的上下文。
--enforce-eager: 这个参数启用 eager execution 模式，意味着模型的推理将在计算时立即进行，而不等待所有操作被构建好后再进行。这种方式可以在某些情况下提高推理的灵活性和效率，但也可能增加内存开销。