DeepSeek-R1模型以仅占OpenAI o1模型3%-5%的成本,便实现了与o1相当或甚至超越的性能,这一创新成果令人震惊,标志着DeepSeek-R1的诞生可能正在重新定义大模型发展的战略。

前排提示,文末有大模型AGI-CSDN独家资料包哦!

在数学、编程及推理任务方面,DeepSeek-R1已成功达到了与OpenAI o1相媲美的性能。为了支持研究社区的发展,DeepSeek团队开源了DeepSeek-R1-Zero、DeepSeek-R1及基于Llama和Qwen从DeepSeek-R1衍生出的六个精简模型。其中,DeepSeek-R1-Distill-Qwen-32B在多个基准测试中超越了OpenAI-o1-mini,为密集型模型带来了全新的最先进成果。

DeepSeek-R1-Zero与DeepSeek-R1均基于DeepSeek-V3-Base进行训练,而DeepSeek-R1-Distill模型则经过Llama和Qwen的微调,使用DeepSeek-R1生成的样本进行配置,并对分词器做了轻微调整。

DeepSeek-R1及其衍生的六个精简模型在性能评估上表现出了极为出色的结果,在许多方面,R1的表现都超越了V3,成为了行业的标杆。

下表是DeepSeek-R1官网给出评估报告:

官网评估部分截取

从这份测试报告中可以看出,DeepSeek-R1在代码(Code)和数学(Math)领域的表现全面超越了几款闭源模型,特别是OpenAI的o1-mini。报告显示,DeepSeek-R1的性能不仅超越了o1-mini,还全面超过了V3。R1的问世,不仅在国内引起了广泛的关注,也对国际大模型市场产生了巨大冲击,迅速引起了OpenAI等科技巨头的高度关注。

官网评估部分截取

上表是基于Llama和Qwen从DeepSeek-R1衍生出的六个精简模型的测试报告,性能同样亮眼。尤其是DeepSeek-R1-Distill-Qwen-32B模型,各项指标均高于GPT-4o0513、Claude-3.5-Sonnet-1022、o1-mini等三个最受关注的闭源模型。

那么DeepSeek-R1是如何产生的?

DeepSeek-R1的诞生

DeepSeek在推出第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一种通过大规模强化学习 (RL) 训练的模型,无需监督微调 (SFT) 作为初步步骤,在推理方面表现出色。在 RL 的帮助下,DeepSeek-R1-Zero 自然而然地出现了许多强大而有趣的推理行为。然而,DeepSeek-R1-Zero 面临着诸如无休止重复、可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能,他们引入了 DeepSeek-R1,它在 RL 之前整合了冷启动数据。DeepSeek-R1 在数学、代码和推理任务中实现了与 OpenAI-o1 相当的性能。同时公司还从DeepSeek-R1 以及基于 Llama 和 Qwen 从 DeepSeek-R1 中提炼出的六个密集模型。 其中DeepSeek-R1-Distill-Qwen-32B 在各种基准测试中均优于 OpenAI-o1-mini。

训练后:基础模型上的大规模强化学习(说明来自DeepSeek-R1)

  • 我们直接将强化学习 (RL) 应用于基础模型,而无需依赖监督微调 (SFT) 作为初步步骤。这种方法允许模型探索解决复杂问题的思路 (CoT),从而开发出 DeepSeek-R1-Zero。DeepSeek-R1-Zero 展示了自我验证、反思和生成长 CoT 等功能,标志着研究界的一个重要里程碑。值得注意的是,这是第一个公开研究,验证了 LLM 的推理能力可以纯粹通过 RL 来激励,而无需 SFT。这一突破为该领域的未来发展铺平了道路。

  • 我们引入了用于开发 DeepSeek-R1 的流水线。该流水线包含两个 RL 阶段,旨在发现改进的推理模式并与人类偏好保持一致,以及两个 SFT 阶段,作为模型推理和非推理能力的种子。我们相信该流水线将通过创建更好的模型使行业受益。

DeepSeek-R1部署

DeepSeek-R1 基于 DeepSeek-V3-Base 进行训练。所以R1的部署可以参考V3的部署。

DeepSeek-R1-Distill 模型部署

DeepSeek-R1-Distill 模型可以与 Qwen 或 Llama 模型相同的方式使用。我们以DeepSeek-R1-Distill-Qwen-32B为例,讲讲如何使用开源加速工具部署。

模型下载,使用hf-mirror实现下载

cd deepseek-ai``git clone https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

使用vLLM部署,请执行以下命令:

export CUDA_VISIBLE_DEVICES=0,1``vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

使用SGLang部署,请执行以下命令:

export CUDA_VISIBLE_DEVICES=0,1``python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

以vLLM为例进行命令解析:

  • vllm serve: 这是启动 vLLM 服务的命令,vLLM 用于优化大型语言模型(LLM)的推理效率。

  • deepseek-ai/DeepSeek-R1-Distill-Qwen-32B: 这是所要加载的模型名称。在这里,指定了 DeepSeek-R1-Distill-Qwen-32B 这个模型,属于 DeepSeek 系列,且经过蒸馏(Distill)处理的版本,适合大规模推理任务。

  • --tensor-parallel-size 2: 这是设置模型分布式并行的参数,具体指定了分布式计算时的 tensor parallel 大小。值 2 表示将模型分割成两个部分,使用两块 GPU 来共同处理模型的计算,适用于大模型的高效推理。

  • --max-model-len 32768: 该参数指定了模型最大处理的输入长度,这里设置为 32,768。这个参数决定了模型在处理文本时,能够一次性处理的最大 token 数量。较大的模型长度有助于处理较长的上下文。

  • --enforce-eager: 这个参数启用 eager execution 模式,意味着模型的推理将在计算时立即进行,而不等待所有操作被构建好后再进行。这种方式可以在某些情况下提高推理的灵活性和效率,但也可能增加内存开销。

DeepSeek-R1-Distill-Qwen-32B模型较大,如果是A100、H100的卡,2张可以启动,但是40902张就不能启动了,会报GPU内存溢出,所以如果你使用4090至少设置4张卡。

写在最后

DeepSeek-R1 的诞生将对大模型领域产生深远影响。首先,它在数学推理和代码理解方面的突破,推动了这些领域的技术进步。其次,DeepSeek-R1的成功应用将激励更多行业定制化大模型的需求,促使企业在特定领域开发适应性更强的模型。此外,凭借其高效的推理能力和低成本优势,DeepSeek-R1将推动开源大模型的普及,降低技术门槛,促进更多中小企业的应用。而其在推理效率、内存管理和分布式计算等方面的创新,也将激发大模型领域的进一步优化,推动技术的持续进步。

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

点击阅读全文
Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐