# why # what - 奖励模型(Reward Model, RM)是一种机器学习模型,通常与[[RLHF 基于人类反馈的强化学习]]一起使用,用来评估智能体(或模型)输出行为的好坏,并给出一个对应的数值化奖励(或分数)。 - 在大语言模型(例如ChatGPT)的训练中,奖励模型尤为重要。其核心思想是: 1. **从人类反馈中学习**: - 模型生成若干个输出后,人类评审员给这些输出排序或评分,告诉模型哪些答案更优。 - 奖励模型会基于这些人类评分数据进行监督学习,从而掌握人类偏好的模式。 2. **指导模型优化**: - 模型利用奖励模型对自己的生成内容进行打分,从而明确知道什么样的生成结果是更受欢迎的。 - 通过强化学习方法(例如Proximal Policy Optimization,[[PPO]]),语言模型就可以使用奖励模型的分数不断优化自身表现,最终产出更符合人类偏好的回答。 # how - ### 奖励模型的构建过程: - **步骤1:生成训练样本** - 基础模型生成多个候选答案。 - **步骤2:人工标注** - 人工或标注员对答案进行排序或评分,形成带标签的数据。 - **步骤3:奖励模型训练** - 使用标注数据训练奖励模型,使其能够自主预测人类偏好的排序或分数。 - **步骤4:[[RLHF 基于人类反馈的强化学习]]阶段** - 利用奖励模型实时为语言模型生成的答案打分,语言模型根据得分进行策略优化。 # how good - **用差异化的奖励塑造价值偏好**: - **AI训练**:针对同一问题生成多个答案,根据人类偏好赋予不同奖励值(如优质答案高分、低质答案低分),使模型逐步学会输出符合预期的内容。 - **人类学习**:类比为三观建设,通过家庭/社会的正反馈(表扬、认可)或负反馈(批评、惩罚)塑造行为准则和价值判断。 - **行为校准** - 文档案例:GPT模型通过奖励建模区分答案优劣,类似家庭教育中孩子因「主动分享」获得表扬(正奖励),因「抢玩具」被批评(负奖励),逐渐内化行为标准。 - 研究支持:如《知识树学习法》指出,奖励模型占AI训练的少部分(约5%),但决定了输出内容的价值观导向。 - **即时反馈驱动** - **生理层面**:依赖多巴胺等神经递质(如《内驱式学习3原理》提到大脑通过奖赏系统强化学习行为)。 - **行为层面**:使用赏罚表、贴纸奖励等工具(《非暴力管教》方法4),将抽象价值观转化为可感知的即时反馈。 - **长期价值引导** - **警惕「短期奖励陷阱」**:如社交媒体点赞触发即时多巴胺,但可能损害深度思考能力(《抖音大脑》分析)。 - **平衡机制**:通过提高折现因子(γ值),促使关注长期收益(如阅读积累对认知的深远影响)。 # Ref. - https://chatgpt.com/c/681f01b6-3214-8002-b718-89f075aabf2e - 小能熊知识库