← 返回文档列表

DeepSeek-R1的四个训练阶段

文档路径: AI\DeepSeek技术解析\DeepSeek 模型训练\DeepSeek-R1的四个训练阶段.md

DeepSeek-R1的四个训练阶段

DeepSeek-R1的训练流程包含四个阶段,分为两个强化学习(RL)阶段和两个监督微调(SFT)阶段。

https://github.com/deepseek-ai/DeepSeek-R1

第一阶段:Cold Start(冷启动,SFT阶段)

要解决的问题

数据来源

人工收集的数千条高质量长链思维(CoT)数据,经过格式规范化和多语言对齐处理。

具体方法

收集冷启动数据:通过少量高质量的长链思维(CoT)数据,包括人工设计的示例、DeepSeek-R1-Zero的输出后处理、多语言对齐的格式(如 process> 和

  1. 标签)。
  2. 监督微调(SFT):用收集的数千条数据对基模型(DeepSeek-V3-Base)进行微调,确保输出格式规范且可读性强,为后续RL提供稳定的初始策略。

第二阶段:Reasoning-Oriented RL(面向推理的强化学习,RL阶段)

要解决的问题

输入模型

冷启动SFT后的检查点。

具体方法

  1. GRPO算法:采用分组相对策略优化(Group Relative Policy Optimization),通过规则奖励(如答案准确性、格式一致性)驱动模型优化。
  2. 语言一致性奖励:引入语言比例奖励(如目标语言词汇占比),减少多语言混合现象。
  3. 混合奖励信号:将准确性奖励与语言一致性奖励直接相加,形成最终奖励函数,指导模型生成更规范的推理过程。

第三阶段:Rejection Sampling & SFT(拒绝采样与监督微调,SFT阶段)

要解决的问题

数据来源

具体方法

  1. 拒绝采样生成数据:从RL检查点采样多个响应,仅保留正确的推理轨迹,并结合生成式奖励模型(如调用DeepSeek-V3判断质量)。
  2. 混合非推理数据:复用DeepSeek-V3的SFT数据(写作、翻译等),总计约80万样本(推理相关60万 + 非推理20万)。
  3. 两轮监督微调:用混合数据集对模型进行两轮微调,平衡推理与非推理能力。

第四阶段:RL for All Scenarios(全场景强化学习,RL阶段)

要解决的问题

输入模型

第三阶段SFT后的检查点。

具体方法

  1. 多样化奖励信号
  1. 多提示分布训练:结合不同场景的提示数据(如用户查询、角色扮演),确保模型适应多样化需求。
  2. 二次RL训练:在收敛的检查点上进一步优化,最终得到兼具推理能力和通用性的DeepSeek-R1模型。

总结

阶段划分逻辑:

  1. SFT阶段1(冷启动):提供初始推理能力。
  2. RL阶段1(推理优化):提升核心推理性能。
  3. SFT阶段2(混合数据):扩展通用能力。
  4. RL阶段2(全场景对齐):最终优化与对齐。
来源:https://www.cnblogs.com/ghj1976/p/18707068/deepseekr1de-si-ge-xun-lian-jie-duan?utmsource=chatgpt.com