- 与 [[AlphaGo]]进行比较,围棋有明确的输赢,这里的**奖励函数**非常简单,就是赢得游戏。所以 AlphaGo 后来不再使用人类棋手的经验进行训练,而是自己和自己下棋,AlphaGo 通过自我改进在 40 天内就超越了一些最顶尖的人类棋手。
- 大语言模型目前处于 AlphaGo 的第一阶段,即模仿人类,人类在微调阶段提供样本。但仅仅模仿人类是无法超越人类的。但什么是大模型的 step2,目前还不知道,因为对于语言来讲,很难像围棋那样有一个奖励标准 reward Criterion,语言是非常开放的。但是,在狭窄的领域中,这样的奖励函数可能是可行的。
## 参考资料
- [[Intro to LLM]]