深度解读“强化微调”，o1模型训练的关键

# videos checklist - [x] seen? - [x] note-taking? thinking about it? - [x] share? # why - 什么是强化微调Reinforcement Fine-Tuning RFT？ - base model都是大语言模型，o1模型和 GPT 模型的区别在哪里？ # what - 强化微调（Reinforcement Learning Fine-Tuning, RLFT）是一种将[[RL 强化学习]]（Reinforcement Learning, RL）用于模型的[[后训练]]阶段微调环节的技术。这一想法是受到[[AlphaGo]]的启发，利用强化学习的潜力，通过自博弈、自我强化的强化学习。 - **强化微调的训练过程**： - **生成思维链**：让模型去做大量的推理（就像人类考前做题），生成成百上千个可能的解决方案/[[CoT]]**chain of thought 思维链**，沿着思维链推理，尝试多种解决方案。 - **强化学习**：通过自我博弈，最终得出的正确答案会获得奖励。正确的答案会通过[[Backpropagation 反向传播算法]]去优化模型，错误的就不会了。 - **big idea** - let's think step by step: 从预测下一个token，变成了预测下一个解决方案/CoT/thinking steps - 将高中水平的 GPT-3[[LLM 大语言模型]] 提升到了博士水平的o1[[推理模型]]。 # how ## 类比 - **GPT 的训练过程：** - GPT的本质：知识大模型 - GPT 的模型是如何训练的？ - [[Pre-training 预训练]] - 99% 的训练时间，获得一个海量阅读的 base model - [[SFT 监督微调]] - 在特定领域进行海量的Q&A - [[RM 奖励模型]] - 相当于价值观树立 - [[RLHF 基于人类反馈的强化学习]] - 通过人类的反馈来优化智能体的行为，使其更符合人类的偏好 - **[[o1]]的训练过程：** - o1 和 GPT 的相同之处：仍然是大语言模型、知识大模型 - o1 的本质：推理者systemic reasoner - 和 GPT 的不同之处: **后训练，从监督微调、基于人类反馈的强化学习到强化微调RFT** - 不再使用人类反馈的强化学习，而是类似于[[AlphaGo]]，通过自我博弈进行推理练习。 - 从主题阅读变成了考前集训，在专业领域做推理，这样可以将一个普通人训练成为专家。 | | GPT | o1、o3 | 人类 | | -------------- | --------------------- | --------- | ------------------------------------------------------------------------- | | 预训练pretraining | ✅ | ✅ | 海量阅读 | | 监督微调SFT | ✅ | ❌ | 专业领域解决问题：专家给出问题，给出结果 | | RLHF | 奖励函数本身是人为设定的，即并不是自我博弈 | ❌ | 做练习题，给出问题和答案，让模型去想解题思路，但是是基于人类反馈的结果。好比会获得奖励的目标并不是出于内驱力，而是外界环境设定的，例如父母的目标。 | | RLFT | ❌ | ✅强化学习+CoT | 专业训练/考前集训+内驱力 | ## 案例 - [ ] OpenAI直播里的 demo，用 1000 多条数据的强化微调让[[o1-mini]]在特定的任务上超越满血版的o1 - [ ] 诊断推理过程+反馈 - 从生物工程转行到财经翻译，强化微调的次数仅 3 次，原因是前期有广泛的英语阅读 - 小树在 FCE 考试之前只做了 4 套卷子，每一次陈老师给出反馈，这就是强化学习 ## 从 o1 模型的训练过程，得到对人类学习的启发 - 成为专家，从高中生到博士，需要有大量的专业训练，进行==大量的推理（人类思维链）==。这种==[[解题元技能]]==包括狭义学习场景下的解题，也包括实际生活中的大、中、小问题，仅凭海量阅读和主题阅读并不能让我们成为某个领域的专家。 - 父母就是孩子的环境，父母给的正反馈和负反馈，其原理是[[RL 强化学习]] - [[Pre-training 预训练]]：相当于广泛阅读 - [[SFT 监督微调]]：主题阅读 - [[RFT 强化学习]] ：专业训练/考前集训 - [[RLHF 基于人类反馈的强化学习]]：相当于父母的价值观引导 - 推理模型仍然是99% 的预训练，仍然是大语言模型。之于人类是海量阅读。没有海量阅读，就不会产生高质量的推理思维链。 # how good ## 我的费曼 - o1 和 GPT一样，仍然是基于 99% 预训练的大语言模型。但之所以 o1 在处理复杂问题的水平上能够从 gpt 模型的高中生、大学生水平提升到博士水平，其背后的原理是使用了基于“后训练”的“强化微调”，用思维链 [[CoT]] 的方式让模型进行大量的推理训练，因此 o1 也被称为推理模型。后训练虽然只占训练的 1%，但决定了模型最终产出的质量。 - 强化微调一方面代替了 gpt 训练中的监督微调，类似于人类从进行主题阅读变成了通过解题进行多轮推理训练的解题训练。 - 另一方面，强化微调也代替了 gpt 训练中的基于人类反馈的强化学习。[[RL 强化学习]]的定义是：智能体在环境当中采取一些行动，然后环境给他正反馈或者负反馈。然后智能体根据反馈来改变他下一轮的学习的状态。我的理解是原 gpt 训练中的 RLHF 是结果导向的强化学习，即环境设定了一个会获得正反馈的目标，然后 gpt 去遵循这个目标行动。而 o1 是过程导向，先通过自己的思考和推理得到一个结果，外部环境再给出反馈。 - 给人类的启发： - 海量的阅读是基础，没有海量阅读，再多的题海战术都训练不出一个具备解释世界、解决问题的智能体。 - 光有广泛阅读和海量阅读还不够，还要有解题推理的训练、专业领域解决问题的训练。本质上都是解题元技能的训练。这部分不会占用太多时间，但是效果提升非常明显。 - 正反馈父母。对待孩子，父母就是环境。父母要做给正反馈的父母，负反馈会让孩子对学习产生恐惧，大脑不转了，什么都学不进去。同时，不要做 RLHF 式的父母，不要给孩子设定你的心理目标。对于成年人的学习也是，要创造正反馈的环境，同时也不要以社会标准来作为目标，要长出自己的内驱力。 # inbox - [ ] o1所使用的强化学习是类似 [[AlphaGo]]的方式（自我博弈），AlphaGo 是怎样的？ # todo - [ ] [[LLM 预训练]] - [ ] [[RL 强化学习]]及直播案例 - [ ] [02/12days of OpenAI](https://readwise.io/reader/shared/01jj0c0kqkeetw50912k8dj6xx) - [ ] [[CoT]]思维链 - [ ] [[SFT 监督微调]] - [ ] OpenAI 官方o1界面 - [ ] 整理 [[o1]] 笔记 # ref. - [强化微调 vs 监督微调：o1 是如何炼成的？｜02/12 days of openai：RFT](https://readwise.io/reader/shared/01jj0bt5c8gwptmma08gmt3t6z) # related. # archive.