RL 强化学习 - 朱婉妤的知识库

- Objective: - Breadcrumb: 机器学习 - 强化学习 # 概念阐释 - 强化学习（reinforcement learning）[[machine learning 机器学习]]研究的分支领域，最早由 DeepMind 发现（[mastering the game of go without human knowledge](https://www.nature.com/articles/nature24270)）。模型通过自我博弈来找到最佳解题思路，而非根据人类价值观偏好来回答（[[RLHF 基于人类反馈的强化学习]]）。 - 这一模型受动物实验中的“**关联学习**”的启发，动物会观察周围的环境，并从每一次的结果中学习，奖励多的结果会被记住和放大。**基本过程**：在强化学习模型中，agent（智能体，动物或人）与环境不断发生交互，agent采取一个行为，环境给出一个反馈：奖励或惩罚，然后智能体根据反馈来改变他下一轮的学习的状态。 ![](https://image.harryrou.wiki/2025-01-21-104756.jpg) ![](https://image.harryrou.wiki/2024-06-18-CleanShot%202024-06-18%20at%2008.04.32%402x.png) - **实现方法** - 人类给出问题和标准答案，就像教科书中的「练习题」一样 - 模型生成不同的解题过程 - 从中选出最好的（不仅正确而且简洁） - 训练这种解题思路 - 重复以上成千上万遍，并且真正的训练是成千上万个问题覆盖多个领域同时进行训练 - ![](https://image.harryrou.wiki/2025-04-25-CleanShot%202025-04-25%20at%2015.04.09%402x.png) # 实例 - AlphaGo 基于强化学习算法，必须在比宇宙中的星球数量还要庞大的摆法中走出最佳策略 - AlphaGo 通过自我博弈，水平超过了模仿人类专家下的监督学习所能达到的最高水平 - ![](https://image.harryrou.wiki/2025-04-28-CleanShot%202025-04-28%20at%2011.35.05%402x.png) - [[o1]]的[[深度解读“强化微调”，o1模型训练的关键|强化微调]]使用了类似 AlphaGo 的强化学习算法，[[CoT]] - [[o3]]使用的是[[ToT]] - [[DeepSeek-R1]] - ❌ GPT系列训练的最后一步虽然是 [[RLHF 基于人类反馈的强化学习]]，但不算真正的强化学习。 # 相关内容 - 与[[Deep Learning 深度学习]]不同的是，深度学习的唯一工作是将输入转换为输出，而强化学习是与环境进行交互。 - 在预测未来奖励的评估中使用[[TD 时序差分学习]]。 - 在人类和动物身上，对于**未来奖励的折现率**是强化学习的关键产物，[[认知神经科学折现因子]]决定了智能体会关注即时奖励还是未来奖励。 # 参考资料 - [0.3 人，为什么要学习？](https://www.candobear.com/p/t_pc/course_pc_detail/image_text/i_65c07cebe4b064a83b933e07?community_id=c_65b634d2dd106_nhCXKYc72308&product_id=course_2ba4aSp8cPi3TjgH1xc2GxANJHL) - [强化学习-维基百科](https://zh.wikipedia.org/wiki/强化学习) - [围棋摆法的数量-GPT](https://chatgpt.com/share/b4b00dde-daec-4c92-b2c2-86b9c1b6dce9) - 《深度学习》谢诺夫斯基 10