DeepSeek-R1 的 R1-Zero 版本简介及其代码样例
训练方式:R1-Zero是完全通过强化学习(RL)训练的大型语言模型,没有经过监督微调(SFT)这一环节。它直接在DeepSeek-V3-Base模型上应用GRPO算法进行强化学习训练,采用基于规则的奖励机制,包括准确性奖励和格式奖励来指导模型学习。性能表现:在AIME 2024基准测试中,R1-Zero的平均pass@1得分从最初的15.6%跃升至71.0%,达到与OpenAI-o1-0912相
·
以下是DeepSeek-R1的R1-Zero版本简介及代码相关内容:
DeepSeek-R1的R1-Zero版本简介
- 训练方式:R1-Zero是完全通过强化学习(RL)训练的大型语言模型,没有经过监督微调(SFT)这一环节。它直接在DeepSeek-V3-Base模型上应用GRPO算法进行强化学习训练,采用基于规则的奖励机制,包括准确性奖励和格式奖励来指导模型学习。
- 性能表现:在AIME 2024基准测试中,R1-Zero的平均pass@1得分从最初的15.6%跃升至71.0%,达到与OpenAI-o1-0912相当的性能水平,经过投票策略后更是提升到了86.7%。在MATH-500、Codeforces等任务中,也展现出强大的推理和代码生成能力。
- 架构特点:参数规模达到660B,这使其在处理复杂任务、图像识别、自然语言处理等方面具备强大潜力。
- 训练中的现象:训练过程中出现“顿悟”现象,模型能够自发地学习到新的、更有效的推理策略。
- 开源策略:R1-Zero采用开源策略,提供多个蒸馏版本,以推动AI技术的普及和创新,增强了模型的透明度和可复现性。
DeepSeek-R1的R1-Zero版本代码样例
以下是复现DeepSeek-R1的R1-Zero相关的代码环境配置部分:
# 安装基础工具
pip install packaging
pip install ninja
# 编译安装Flash Attention包
pip install flash-attn --no-build-isolation
# 如果设备CPU核心多,但运行内存小于96GB,设置MAX_JOBS数量后安装
MAX_JOBS=4 pip install flash-attn --no-build-isolation
# 安装其他库,核心列表如下
setuptools<71.0.0
transformers==4.48.1
datasets==3.1.0
accelerate==1.3.0
hf-transfer==0.1.9
deepspeed==0.15.4
trl==0.14.0
vllm==0.7.0
modelscope==1.22.3
swanlab==0.4.6
huggingface-hub==0.28.1
# 更换为国内镜像源
export HF_ENDPOINT=https://hf-mirror.com
# 下载数据集
# 这里使用的数据集为Jiayi-Pan/Countdown-Tasks-3to4
完整的复现代码可参考unlock-deepseek/Datawhale-R1以及TinyZero。
更多推荐
所有评论(0)