一文搞懂DeepSeek - 开源模型R1

例如，在AIME 2024数学测试中，DeepSeek-R1的准确率接近OpenAI o1-0912的水平；在MATH-500、Codeforces和MMLU等测试中，也取得了优异的成绩。DeepSeek是杭州深度求索人工智能基础技术研究有限公司的简称，同时DeepSeek也是该公司研发的通用人工智能开源大模型平台。

Android女王

4216人浏览 · 2025-02-04 19:57:28

Android女王 · 2025-02-04 19:57:28 发布

DeepSeek-R1作为一款开源的大型语言模型，在数学、编程和推理等多个任务上表现出了强大的性能。其纯强化学习的训练方法、开源与低成本的特性以及技术创新使得DeepSeek-R1成为了AI领域的一颗新星。

在多个基准测试中，DeepSeek-R1的表现优于或接近OpenAI o1。 例如，在AIME 2024数学测试中，DeepSeek-R1的准确率接近OpenAI o1-0912的水平；在MATH-500、Codeforces和MMLU等测试中，也取得了优异的成绩。

一、DeepSeek

DeepSeek（深度求索）是什么？

DeepSeek是杭州深度求索人工智能基础技术研究有限公司的简称，同时DeepSeek也是该公司研发的通用人工智能开源大模型平台。

DeepSeek完全基于自研训练框架、自建智算集群和万卡算力等资源，在短时间内取得了显著的研发成果。它通过大幅度缩减以往大模型所需要的庞大算力，直接把大模型的成本降了下来，被称为“AI界的拼多多”。

DeepSeek系列模型有哪些？

DeepSeek系列模型包括R1（数学、代码及推理领域开源大模型，回答全面详实）、V3（自研MoE模型，性能顶尖且性价比极高）、VL（视觉与语言理解开源多模态模型）、V2（创新架构，推理成本低廉）、R1-Zero（强化学习预模型，独特优势）、以及蒸馏版Qwen和Llama小模型（从R1数据蒸馏，表现优异）。

DeepSeek-R1：一款在数学、代码及自然语言推理领域与OpenAI o1比肩的开源大模型，以其全面、详实的回答和结构化输出著称。
DeepSeek-V3： 凭借自研MoE模型和671B参数，在性能上超越所有已发布的开源模型，成为极具性价比的顶尖大模型之一。
DeepSeek-VL：专为视觉和语言理解设计的开源多模态模型，能够处理复杂场景下的逻辑、公式识别及自然图像等问题。
DeepSeek-V2：以创新的模型架构和极低的推理成本，成为性价比极高的大模型选择。
DeepSeek-R1-Zero：采用强化学习训练的预模型，不走传统监督微调路线，展现独特优势。
蒸馏版Qwen、Llama系列小模型：从DeepSeek-R1数据上蒸馏得到的小模型，表现优秀，部分任务上甚至超越GPT-4o。

二、DeepSeek-R1

DeepSeek-R1是什么？DeepSeek-R1是一款在2025年1月20日发布的大型语言模型，它采用了包含6710亿参数的MoE（专家混合）架构，特别主打推理功能。同时DeepSeek-R1开源了模型权重，并采用了宽松的MIT许可协议，为开发者提供了极大的便利和灵活性。

DeepSeek-R1与OpenAI-o1相比，其优势在于开源特性、强化学习训练的高效推理能力以及低成本，为开发者提供了更多选择和灵活性。

DeepSeek-R1的核心亮点是什么？

DeepSeek-R1的核心亮点在于其作为首个完全通过强化学习训练的大型语言模型，无需监督微调，结合冷启动数据显著提升了推理能力，并提供多个蒸馏版本及低成本的API服务。

DeepSeek-R1-Zero是首个完全通过强化学习（RL）训练的大型语言模型，无需依赖监督微调（SFT）或人工标注数据。为了进一步提升模型性能，DeepSeek-R1引入了冷启动数据，结合强化学习进行训练。解决了R1-Zero在可读性和语言混合方面的局限性，显著提升了模型的推理能力。
DeepSeek-R1提供了六个蒸馏版本（1.5B至70B），适合不同规模的开发者使用。与OpenAI o1相比，API调用成本显著降低。

DeepSeek-R1的核心创新是什么？

DeepSeek-R1的技术创新在于开发了GRPO算法以优化策略网络，避免了高计算开销，同时设计了多层次奖励机制和“思考-回答”双阶段训练模板，确保模型推理的高效性、可读性和过程可追踪性。