# videos checklist - [x] seen? - [x] note-taking? thinking about it? - [ ] share? # why - 在 [[benchmark]] 中吊打满血 o1,却便宜 50 倍,速度快 5 倍。如何做到的? - ![](https://image.harryrou.wiki/2025-02-02-benchmark.jpg) # what ## 训练过程 ![](https://image.harryrou.wiki/2025-02-02-jf6vo05hx8ee1.jpeg) 1. **DeepSeek-V3 Base(67B/37B激活)与SFT冷启动** - 一开始先从DeepSeek-V3 Base出发,使用少量的长CoT(Chain-of-Thought)数据(约数千条)进行**Supervised Fine-Tuning (SFT)**,算是一次“冷启动”的过程。 - 这个阶段的目的是让模型先学会基本的长链式思维(CoT)格式,为后续大规模的推理数据做准备。 2. **推理取向的强化学习 (Reasoning Oriented RL,GRPO)** - 在冷启动完成后,紧接着会进行一个基于规则的奖励(主要考察推理准确性和输出格式)以及CoT语言一致性的奖励,也就是图中所写的“+ CoT Language Consistency Reward”。 - 通过强化学习把模型在推理场景下的表现进一步提升,并且让它形成统一、清晰的Chain-of-Thought表述风格。 - 这一阶段完成后,就形成了**DeepSeek-V3 Base + CS SFT + RORL**的中间版本,可以理解为已经拥有了相对稳定且高质量的推理能力。 3. **Reasoning数据与拒绝采样(Rejection Sampling)** - 为了进一步加强模型的推理能力,会用规则和训练好的DeepSeek-V3当作“裁判”去筛选,收集了大约60万条推理数据(Reasoning Data)。 - 同时,还有20万条非推理数据(Non-Reasoning Data),一并汇总到**DeepSeek-V3 SFT Data**里。 - 这样总共就获得了80万条“SFT数据”(Combined SFT Data),包含推理和非推理两种类型。 4. **多模型蒸馏 (Distillation) 与SFT训练** - 在图的中间区域,可以看到Qwen2.5家族(1.5B/7B/14B/32B)和Llama家族(3.3-70B-Instruct/3.1-8B)等不同大小的模型,都要用这80万条的SFT数据来进行2个epoch的微调(SFT),目的是把DeepSeek-V3的能力“蒸馏”下去。 - 通过这样的多模型蒸馏,可以得到一系列不同规模的**DeepSeek-R1-Distill-{Qwen/Llama}-{*B}**模型,既能保证推理能力,也能兼顾资源消耗。 5. **最终的SFT与强化学习 (RL)** - 上面得到的“Combined SFT Data”(80万条)还要再进行SFT两轮训练,并且配合**Reasoning + Preference Reward**的RL策略,以及多样化的训练提示(prompts),让模型在输出质量和用户偏好之间找到平衡。 - 这一阶段结束后,就形成了主打的**DeepSeek-R1**版本,可以说是把推理准确性、多样性、以及对话能力都整合到一起的最终成果。 6. **DeepSeek-R1-Zero** - 图里左下方出现了“DeepSeek-R1-Zero”,看上去像一个 baseline 或最初阶段的版本,也可能是在最小规模上做的初步尝试。最终演进到DeepSeek-R1,功能更完整也更强大。 # how ## 论文解读 - ![](https://image.harryrou.wiki/2025-04-27-CleanShot%202025-04-27%20at%2022.26.47%402x.png) - 从结果来看,模型需要更多的步骤来获得更高的准确度结果 - ![](https://image.harryrou.wiki/2025-04-28-CleanShot%202025-04-28%20at%2011.06.49%402x.png) - 步骤越多,平均响应长度越长,意味着使用了更多的token,所以它正在学习创建**非常长的解决方案**,为什么这些解决方案很长,因为模型进行“思考了” - ![](https://image.harryrou.wiki/2025-04-28-CleanShot%202025-04-28%20at%2011.08.52%402x.png) - 模型在创建思维链[[CoT]]的过程,似乎学会了像我们脑子里的思考方式,解题 - 回溯 - 重现构建..... ## 测试实例 - 硬推理能力 - 编程和数学属于硬推理能力,这方面的优势可以交给时间去证明。如果真的超过 o1,会有更多的专业人士使用。 - 软推理能力 - [00:13:03](https://www.youtube.com/watch?v=R26xS9Obo3M&t=783s) 案例1:孩子数学考了38分 - 结果:没有说到问题的本质,即父亲发现孩子不是亲生的 - [00:16:00](https://www.youtube.com/watch?v=R26xS9Obo3M&t=960s) 案例2:把16个单词分为4类 - 分类分对了 2 个 - [00:17:41](https://www.youtube.com/watch?v=R26xS9Obo3M&t=1061s) 案例3:第三个字母是A的国家 - 有一个字母错了 - [00:19:13](https://www.youtube.com/watch?v=R26xS9Obo3M&t=1153s) 案例4:用1颗子弹看守100个犯人 - 大部分正确 - 对于笑话本质的理解与创建 - [00:22:47](https://www.youtube.com/watch?v=R26xS9Obo3M&t=1367s) 案例5:全聚德 vs 肯德基 - R1 没能理解 - [00:24:15](https://www.youtube.com/watch?v=R26xS9Obo3M&t=1455s) 案例6:构思一个恐龙笑话 - llm 编笑话的能力都不太好 - 深度思考 - [00:27:29](https://www.youtube.com/watch?v=R26xS9Obo3M&t=1649s) 案例7:人的agency是什么 - [00:28:49](https://www.youtube.com/watch?v=R26xS9Obo3M&t=1729s) 案例8:信息熵与知识管理 - 一进行深度思考就陷入**动词大词**中?为什么? # how good - signal 与 noise - 不要盲目跟风,要有自己的判断,要抓住问题的原理、逻辑,并且要有有效的证据。 - 测试数据是否说明了模型针对 benchmark 的项目进行过特殊训练,所以性能更强? # inbox # todo # ref. - [ ] [R1 论文](https://readwise.io/reader/shared/01jk2zvekxjam5cb16yex5nybg) - [x] [youtube-R1推理模型吊打 o1?](https://readwise.io/reader/shared/01jk30nhknsb8b94mtfv1pk6ne) # related. # archive.