DeepSeek-R1 - 朱婉妤的知识库

# videos checklist - [x] seen? - [x] note-taking? thinking about it? - [ ] share? # why - 在 [[benchmark]] 中吊打满血 o1，却便宜 50 倍，速度快 5 倍。如何做到的？ - ![](https://image.harryrou.wiki/2025-02-02-benchmark.jpg) # what ## 训练过程 ![](https://image.harryrou.wiki/2025-02-02-jf6vo05hx8ee1.jpeg) 1. **DeepSeek-V3 Base（67B/37B激活）与SFT冷启动** - 一开始先从DeepSeek-V3 Base出发，使用少量的长CoT（Chain-of-Thought）数据（约数千条）进行**Supervised Fine-Tuning (SFT)**，算是一次“冷启动”的过程。 - 这个阶段的目的是让模型先学会基本的长链式思维（CoT）格式，为后续大规模的推理数据做准备。 2. **推理取向的强化学习 (Reasoning Oriented RL，GRPO)** - 在冷启动完成后，紧接着会进行一个基于规则的奖励（主要考察推理准确性和输出格式）以及CoT语言一致性的奖励，也就是图中所写的“+ CoT Language Consistency Reward”。 - 通过强化学习把模型在推理场景下的表现进一步提升，并且让它形成统一、清晰的Chain-of-Thought表述风格。 - 这一阶段完成后，就形成了**DeepSeek-V3 Base + CS SFT + RORL**的中间版本，可以理解为已经拥有了相对稳定且高质量的推理能力。 3. **Reasoning数据与拒绝采样（Rejection Sampling）** - 为了进一步加强模型的推理能力，会用规则和训练好的DeepSeek-V3当作“裁判”去筛选，收集了大约60万条推理数据（Reasoning Data）。 - 同时，还有20万条非推理数据（Non-Reasoning Data），一并汇总到**DeepSeek-V3 SFT Data**里。 - 这样总共就获得了80万条“SFT数据”（Combined SFT Data），包含推理和非推理两种类型。 4. **多模型蒸馏 (Distillation) 与SFT训练** - 在图的中间区域，可以看到Qwen2.5家族（1.5B/7B/14B/32B）和Llama家族（3.3-70B-Instruct/3.1-8B）等不同大小的模型，都要用这80万条的SFT数据来进行2个epoch的微调（SFT），目的是把DeepSeek-V3的能力“蒸馏”下去。 - 通过这样的多模型蒸馏，可以得到一系列不同规模的**DeepSeek-R1-Distill-{Qwen/Llama}-{*B}**模型，既能保证推理能力，也能兼顾资源消耗。 5. **最终的SFT与强化学习 (RL)** - 上面得到的“Combined SFT Data”（80万条）还要再进行SFT两轮训练，并且配合**Reasoning + Preference Reward**的RL策略，以及多样化的训练提示(prompts)，让模型在输出质量和用户偏好之间找到平衡。 - 这一阶段结束后，就形成了主打的**DeepSeek-R1**版本，可以说是把推理准确性、多样性、以及对话能力都整合到一起的最终成果。 6. **DeepSeek-R1-Zero** - 图里左下方出现了“DeepSeek-R1-Zero”，看上去像一个 baseline 或最初阶段的版本，也可能是在最小规模上做的初步尝试。最终演进到DeepSeek-R1，功能更完整也更强大。 # how ## 论文解读 - ![](https://image.harryrou.wiki/2025-04-27-CleanShot%202025-04-27%20at%2022.26.47%402x.png) - 从结果来看，模型需要更多的步骤来获得更高的准确度结果 - ![](https://image.harryrou.wiki/2025-04-28-CleanShot%202025-04-28%20at%2011.06.49%402x.png) - 步骤越多，平均响应长度越长，意味着使用了更多的token，所以它正在学习创建**非常长的解决方案**，为什么这些解决方案很长，因为模型进行“思考了” - ![](https://image.harryrou.wiki/2025-04-28-CleanShot%202025-04-28%20at%2011.08.52%402x.png) - 模型在创建思维链[[CoT]]的过程，似乎学会了像我们脑子里的思考方式，解题 - 回溯 - 重现构建..... ## 测试实例 - 硬推理能力 - 编程和数学属于硬推理能力，这方面的优势可以交给时间去证明。如果真的超过 o1，会有更多的专业人士使用。 - 软推理能力 - [00:13:03](https://www.youtube.com/watch?v=R26xS9Obo3M&t=783s) 案例1：孩子数学考了38分 - 结果：没有说到问题的本质，即父亲发现孩子不是亲生的 - [00:16:00](https://www.youtube.com/watch?v=R26xS9Obo3M&t=960s) 案例2：把16个单词分为4类 - 分类分对了 2 个 - [00:17:41](https://www.youtube.com/watch?v=R26xS9Obo3M&t=1061s) 案例3：第三个字母是A的国家 - 有一个字母错了 - [00:19:13](https://www.youtube.com/watch?v=R26xS9Obo3M&t=1153s) 案例4：用1颗子弹看守100个犯人 - 大部分正确 - 对于笑话本质的理解与创建 - [00:22:47](https://www.youtube.com/watch?v=R26xS9Obo3M&t=1367s) 案例5：全聚德 vs 肯德基 - R1 没能理解 - [00:24:15](https://www.youtube.com/watch?v=R26xS9Obo3M&t=1455s) 案例6：构思一个恐龙笑话 - llm 编笑话的能力都不太好 - 深度思考 - [00:27:29](https://www.youtube.com/watch?v=R26xS9Obo3M&t=1649s) 案例7：人的agency是什么 - [00:28:49](https://www.youtube.com/watch?v=R26xS9Obo3M&t=1729s) 案例8：信息熵与知识管理 - 一进行深度思考就陷入**动词大词**中？为什么？ # how good - signal 与 noise - 不要盲目跟风，要有自己的判断，要抓住问题的原理、逻辑，并且要有有效的证据。 - 测试数据是否说明了模型针对 benchmark 的项目进行过特殊训练，所以性能更强？ # inbox # todo # ref. - [ ] [R1 论文](https://readwise.io/reader/shared/01jk2zvekxjam5cb16yex5nybg) - [x] [youtube-R1推理模型吊打 o1？](https://readwise.io/reader/shared/01jk30nhknsb8b94mtfv1pk6ne) # related. # archive.