RM 奖励模型 - 朱婉妤的知识库

# why # what - 奖励模型（Reward Model, RM）是一种机器学习模型，通常与[[RLHF 基于人类反馈的强化学习]]一起使用，用来评估智能体（或模型）输出行为的好坏，并给出一个对应的数值化奖励（或分数）。 - 在大语言模型（例如ChatGPT）的训练中，奖励模型尤为重要。其核心思想是： 1. **从人类反馈中学习**： - 模型生成若干个输出后，人类评审员给这些输出排序或评分，告诉模型哪些答案更优。 - 奖励模型会基于这些人类评分数据进行监督学习，从而掌握人类偏好的模式。 2. **指导模型优化**： - 模型利用奖励模型对自己的生成内容进行打分，从而明确知道什么样的生成结果是更受欢迎的。 - 通过强化学习方法（例如Proximal Policy Optimization，[[PPO]]），语言模型就可以使用奖励模型的分数不断优化自身表现，最终产出更符合人类偏好的回答。 # how - ### 奖励模型的构建过程： - **步骤1：生成训练样本** - 基础模型生成多个候选答案。 - **步骤2：人工标注** - 人工或标注员对答案进行排序或评分，形成带标签的数据。 - **步骤3：奖励模型训练** - 使用标注数据训练奖励模型，使其能够自主预测人类偏好的排序或分数。 - **步骤4：[[RLHF 基于人类反馈的强化学习]]阶段** - 利用奖励模型实时为语言模型生成的答案打分，语言模型根据得分进行策略优化。 # how good - **用差异化的奖励塑造价值偏好**： - **AI训练**：针对同一问题生成多个答案，根据人类偏好赋予不同奖励值（如优质答案高分、低质答案低分），使模型逐步学会输出符合预期的内容。 - **人类学习**：类比为三观建设，通过家庭/社会的正反馈（表扬、认可）或负反馈（批评、惩罚）塑造行为准则和价值判断。 - **行为校准** - 文档案例：GPT模型通过奖励建模区分答案优劣，类似家庭教育中孩子因「主动分享」获得表扬（正奖励），因「抢玩具」被批评（负奖励），逐渐内化行为标准。 - 研究支持：如《知识树学习法》指出，奖励模型占AI训练的少部分（约5%），但决定了输出内容的价值观导向。 - **即时反馈驱动** - **生理层面**：依赖多巴胺等神经递质（如《内驱式学习3原理》提到大脑通过奖赏系统强化学习行为）。 - **行为层面**：使用赏罚表、贴纸奖励等工具（《非暴力管教》方法4），将抽象价值观转化为可感知的即时反馈。 - **长期价值引导** - **警惕「短期奖励陷阱」**：如社交媒体点赞触发即时多巴胺，但可能损害深度思考能力（《抖音大脑》分析）。 - **平衡机制**：通过提高折现因子（γ值），促使关注长期收益（如阅读积累对认知的深远影响）。 # Ref. - https://chatgpt.com/c/681f01b6-3214-8002-b718-89f075aabf2e - 小能熊知识库