- Objective: - Breadcrumb: 机器学习 - 强化学习 # 概念阐释 - 强化学习(reinforcement learning)[[machine learning 机器学习]]研究的分支领域,最早由 DeepMind 发现([mastering the game of go without human knowledge](https://www.nature.com/articles/nature24270))。模型通过自我博弈来找到最佳解题思路,而非根据人类价值观偏好来回答([[RLHF 基于人类反馈的强化学习]])。 - 这一模型受动物实验中的“**关联学习**”的启发,动物会观察周围的环境,并从每一次的结果中学习,奖励多的结果会被记住和放大。**基本过程**:在强化学习模型中,agent(智能体,动物或人)与环境不断发生交互,agent采取一个行为,环境给出一个反馈:奖励或惩罚,然后智能体根据反馈来改变他下一轮的学习的状态。 ![](https://image.harryrou.wiki/2025-01-21-104756.jpg) ![](https://image.harryrou.wiki/2024-06-18-CleanShot%202024-06-18%20at%2008.04.32%402x.png) - **实现方法** - 人类给出问题和标准答案,就像教科书中的「练习题」一样 - 模型生成不同的解题过程 - 从中选出最好的(不仅正确而且简洁) - 训练这种解题思路 - 重复以上成千上万遍,并且真正的训练是成千上万个问题覆盖多个领域同时进行训练 - ![](https://image.harryrou.wiki/2025-04-25-CleanShot%202025-04-25%20at%2015.04.09%402x.png) # 实例 - AlphaGo 基于强化学习算法,必须在比宇宙中的星球数量还要庞大的摆法中走出最佳策略 - AlphaGo 通过自我博弈,水平超过了模仿人类专家下的监督学习所能达到的最高水平 - ![](https://image.harryrou.wiki/2025-04-28-CleanShot%202025-04-28%20at%2011.35.05%402x.png) - [[o1]]的[[深度解读“强化微调”,o1模型训练的关键|强化微调]]使用了类似 AlphaGo 的强化学习算法,[[CoT]] - [[o3]]使用的是[[ToT]] - [[DeepSeek-R1]] - ❌ GPT系列训练的最后一步虽然是 [[RLHF 基于人类反馈的强化学习]],但不算真正的强化学习。 # 相关内容 - 与[[Deep Learning 深度学习]]不同的是,深度学习的唯一工作是将输入转换为输出,而强化学习是与环境进行交互。 - 在预测未来奖励的评估中使用[[TD 时序差分学习]]。 - 在人类和动物身上,对于**未来奖励的折现率**是强化学习的关键产物,[[认知神经科学 折现因子]]决定了智能体会关注即时奖励还是未来奖励。 # 参考资料 - [0.3 人,为什么要学习?](https://www.candobear.com/p/t_pc/course_pc_detail/image_text/i_65c07cebe4b064a83b933e07?community_id=c_65b634d2dd106_nhCXKYc72308&product_id=course_2ba4aSp8cPi3TjgH1xc2GxANJHL) - [强化学习-维基百科](https://zh.wikipedia.org/wiki/强化学习) - [围棋摆法的数量-GPT](https://chatgpt.com/share/b4b00dde-daec-4c92-b2c2-86b9c1b6dce9) - 《深度学习》谢诺夫斯基 10