DeepSeek-R1-Distill SFT 微调记录

一、模型效果与发现能够识别输出模式 ###Response。回答都会列举ABC等选项，难道是数据集中这种问题占比过多，并未确认？并未出现灾难性遗忘的状况。回答问题时会出现中英文混杂现象，我在微调时仅使用了英文数据集。评估时偶尔会出现没有思考过程的情况。二、反思与优化train_prompt并未完全遵循模型的chat_tempelete，需要进行调整，可能会导致模型输出的内容格式不标准。

LLand520

759人浏览 · 2025-03-23 15:47:48

LLand520 · 2025-03-23 15:47:48 发布

背景

锻炼大模型微调能力，为专业领域赋能。
以医疗知识为背景，进行CoT微调
微调Base模型: DeepSeek-R1-Distill-Qwen-7B
微调数据集: medical-o1-reasoning-SFT
欢迎大家交流微调经验知识，有比较专业的同学可以评论表达自己的看法。

环境：

A100 GPU （30%）,72G内存, 24G显存
unsloth，一个高效微调工具包，可以大幅度节省内存占用
transformers，peft相关包
CUDA 12.4, pytorch >= 2.4.0

第一次微调参数：

模型加载：第一次模型加载时： load_in_4bit=True

资源占用: 因为第一次用的是load_in_4bit=True，所以GPU显存占用为7B。lora微调参数大约才4000W，占比整个大模型的参数的0.5%左右。

加载模型

采用中文prompt 整理数据集

微调prompt

2. 微调训练参数设置

lora微调设置

训练参数设置

第一次微调loss

loss/step

备注：因为中间有训练中断，所以分为了3次进行微调，总训练9500步，3个epochs。

smooth loss

备注：可以比较明显的看出来，每个epoch过后会出现一个明显的loss下降

第二次微调(进行中...)

模型加载：load_in_4bit = False

资源占用: 内存4.75G，显存17G，lora微调参数大约还是在4000w，占比整个大模型的0.5%左右。

微调时资源占用情况

调整prompt为英文模板，主要原因数据集数据主要为英文数据。
训练参数无任何调整。
绿色线是第二次微调。

备注：可以看出英文版prompt的微调比中文prompt更有优势。

prompt:你好。好久不见

备注：可以看到之前的能力还是有保留，并未出现灾难性遗忘的问题。

第一次微调后的模型

第一次微调后的模型，专业问题提问

备注：出现中英文混合，同时回答混乱，该问题是微调数据集中的中文数据集其中一个提问。

第二次微调模型评估

中英文混杂

备注：学到了###Response格式，

英文prompt

备注：思考过程不太严谨，但是最终结果是正确的，因为该数据存在训练集里。

prompt：春天到了，最近这两天突然出现，频繁打喷嚏，眼角痒痒，这是为什么？

第二次微调的模型

备注：这个一条自己写的问题，发现模型输出会出现重复内容，中英文混杂的现象。

prompt: 护肝片有什么作用？

第二次微调的模型输出结果

备注：这是一条自己写的问题，发现模型并未出现<think>过程。

总结：

一、模型效果与发现

能够识别输出模式 ###Response。
回答都会列举ABC等选项，难道是数据集中这种问题占比过多，并未确认？
并未出现灾难性遗忘的状况。
回答问题时会出现中英文混杂现象，我在微调时仅使用了英文数据集。
评估时偶尔会出现没有思考过程的情况。

二、反思与优化

train_prompt并未完全遵循模型的chat_tempelete，需要进行调整，可能会导致模型输出的内容格式不标准。
并未尝试不同的 lr、batch_size等，可以通过小规模测试，观察不同lr，batch_size时loss的情况。

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。