# why
# what
- 奖励模型(Reward Model, RM)是一种机器学习模型,通常与[[RLHF 基于人类反馈的强化学习]]一起使用,用来评估智能体(或模型)输出行为的好坏,并给出一个对应的数值化奖励(或分数)。
- 在大语言模型(例如ChatGPT)的训练中,奖励模型尤为重要。其核心思想是:
1. **从人类反馈中学习**:
- 模型生成若干个输出后,人类评审员给这些输出排序或评分,告诉模型哪些答案更优。
- 奖励模型会基于这些人类评分数据进行监督学习,从而掌握人类偏好的模式。
2. **指导模型优化**:
- 模型利用奖励模型对自己的生成内容进行打分,从而明确知道什么样的生成结果是更受欢迎的。
- 通过强化学习方法(例如Proximal Policy Optimization,[[PPO]]),语言模型就可以使用奖励模型的分数不断优化自身表现,最终产出更符合人类偏好的回答。
# how
- ### 奖励模型的构建过程:
- **步骤1:生成训练样本**
- 基础模型生成多个候选答案。
- **步骤2:人工标注**
- 人工或标注员对答案进行排序或评分,形成带标签的数据。
- **步骤3:奖励模型训练**
- 使用标注数据训练奖励模型,使其能够自主预测人类偏好的排序或分数。
- **步骤4:[[RLHF 基于人类反馈的强化学习]]阶段**
- 利用奖励模型实时为语言模型生成的答案打分,语言模型根据得分进行策略优化。
# how good
- **用差异化的奖励塑造价值偏好**:
- **AI训练**:针对同一问题生成多个答案,根据人类偏好赋予不同奖励值(如优质答案高分、低质答案低分),使模型逐步学会输出符合预期的内容。
- **人类学习**:类比为三观建设,通过家庭/社会的正反馈(表扬、认可)或负反馈(批评、惩罚)塑造行为准则和价值判断。
- **行为校准**
- 文档案例:GPT模型通过奖励建模区分答案优劣,类似家庭教育中孩子因「主动分享」获得表扬(正奖励),因「抢玩具」被批评(负奖励),逐渐内化行为标准。
- 研究支持:如《知识树学习法》指出,奖励模型占AI训练的少部分(约5%),但决定了输出内容的价值观导向。
- **即时反馈驱动**
- **生理层面**:依赖多巴胺等神经递质(如《内驱式学习3原理》提到大脑通过奖赏系统强化学习行为)。
- **行为层面**:使用赏罚表、贴纸奖励等工具(《非暴力管教》方法4),将抽象价值观转化为可感知的即时反馈。
- **长期价值引导**
- **警惕「短期奖励陷阱」**:如社交媒体点赞触发即时多巴胺,但可能损害深度思考能力(《抖音大脑》分析)。
- **平衡机制**:通过提高折现因子(γ值),促使关注长期收益(如阅读积累对认知的深远影响)。
# Ref.
- https://chatgpt.com/c/681f01b6-3214-8002-b718-89f075aabf2e
- 小能熊知识库