TD 时序差分学习 - 朱婉妤的知识库

- Objective: 机器、大脑的奖励学习 - Breadcrumb: # 概念阐释时序差分学习（Temporal difference learning，TD learning）是强化学习中，在最终结果出现之前预测未来奖励的方法。最大化折扣奖励 $ R(t) = r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \ldots $ - $r_{t+1}$: 在时间 t+1 时的奖励； - $R(t)$: 多个时刻的累计奖励之和； - 0<$\gammalt;1：[[认知神经科学折现因子|折扣系数]]，接近于 1 时关注未来奖励，接近于 0 时关注当下奖励； # 实例 ![](https://image.harryrou.wiki/2024-06-18-CleanShot%202024-06-18%20at%2009.14.08%402x.png) 蜜蜂的奖励模型： **图片中的角色** 1. 花朵：在图片的左边，有一朵花，小蜜想知道从这朵花能得到多少花蜜。 2. 感官输入：当小蜜飞到花丛中，她用眼睛和鼻子（感官输入）来看看花的颜色和闻闻花的香味。 3. 黄色感官（Y）和蓝色感官（B）：小蜜的眼睛能看到黄色的花和蓝色的花，所以她的系统有两个部分，一个专门看黄色花，一个专门看蓝色花。 4. 奖励（R）：当小蜜采蜜时，她会知道这朵花给了她多少花蜜，这就是她的奖励。 **图片中的过程** 1. **感官输入**：小蜜飞到花丛中，用眼睛和鼻子感知到花的颜色和香味。假设她看到一朵黄色的花 ( s(t) )。 2. **预测奖励**：小蜜的系统会根据她之前学到的经验（像是之前看到黄色花得到的花蜜）来预测这次她会得到多少花蜜。这个预测由一个叫 ( P ) 的神经元来计算，公式是： $ P_t(s) = w^Y \cdot s_Y + w^B \cdot s_B $ 这里，( $w^Y$ ) 和 ( $w^B$ ) 是系统根据黄色花和蓝色花学到的经验（权重）。 3. **实际奖励**：当小蜜采蜜后，她得到一个**实际的奖励** $r_t$ （比如这次她得到的花蜜数量）。 4. **预测误差**：然后，小蜜的系统会计算一个叫 $\delta_t$ 的数字，这个数字告诉她这次的**实际奖励和之前的预测有多大的差别**。公式是： $\delta_t = r_t + \gamma P_t(s_t) - P_t(s_{t-1})$ 这里， $\gamma$ [[认知神经科学折现因子|折现因子]]是一个用来衡量未来奖励重要性的数字。 5. **调整经验**：如果这次小蜜得到的奖励比她预期的多，那么系统会增加对这朵花的信任（权重增加）。如果奖励比预期的少，那么系统会减少对这朵花的信任（权重减少）。权重的调整公式是： $\Delta w_t = \alpha \delta_t s_{t-1} $ 这里，$\alpha$ 是**学习速率**，表示小蜜学得有多快。总结通过不断地飞到不同的花朵，感知颜色和香味，得到花蜜的奖励，小蜜的系统会越来越聪明，能更准确地预测哪朵花能给她最多的花蜜，从而帮助她做出更好的选择。 # 相关内容 ## 大脑的奖励机制 [[多巴胺]]回路与奖励学习有关，但人们始终不清楚传递到前额叶的信号是什么。直到 20 世纪 90 年代发现，多巴胺神经元可以实现时间差分学习。 # 参考资料 - [时序差分学习-维基百科](https://zh.wikipedia.org/wiki/时序差分学习) - 《深度学习》谢诺夫斯基 10