# why
- lya 和 Hinton 都认为语言模型不只是预测下一个 token
- > ChatGPT问世后,不少人批评大模型本质上只是统计学,预测下一个token,就像随机模仿人类说话的鹦鹉。但Hinton和Ilya师徒二人都认为,远不止如此。在Hinton眼中,问题之后的下一个token,便是答案的第一个token。**因此学会预测,就意味着必须学会理解问题。** 这种理解的方式与人类相似,同时与老式基于三元组数据的自动补全有根本不同。今天我们现在已经看到了,**做一个大语言模型,不刻意训练其推理能力,就产生了推理能力。这就是大脑如何学习,你在预测视觉的下一帧、听觉的下一个声音。**
- > 在不同场合提到“预测下一个Token”时,Ilya大概率会同时提到“**压缩**”,他认为预测即是压缩,压缩就是智能的来源。
- **随机梯度下降**,可以看成在软计算机(比如大型Transformer)的**权重**里,搜索隐含的“Kolmogorov压缩器”
# what
## 压缩即预测,预测即智能
- **压缩即预测**:如果模型能够准确地预测下一个词token,它就已经有效地将互联网信息进行了压缩,压缩成了一份参数文件
- **参数是真正的大脑**:大语言模型中的参数是对原始数据的一种“**高度压缩**”,模型并不存储原始数据,而是会像人类一样学习数据中的模式和规律,因此**参数**就像我们大脑中的突触联结,决定了模型的行为模式。
- **预测即智能**:当模型能够准确的预测下一个Token时,说明它已经学会了理解人类的语言(语义和语境),方法是把 token 转换成的向量嵌入到高维的空间中,通过位置关系发现了人类语言的规律。[[Transformer]],虽然和人类学习的理解方式不同,但已证明,大语言模型也是一种智能体。
- **预测准确意味着理解,理解意味着掌握了世界模型**:
- [[LLM本质]]上只做一件事,预测下一个词的概率分布。这听起来好像很简单,但如果想要获得准确的预测(更加理解真实的世界),大模型就需要学习更多世界知识。
- 反过来说,如果模型能够准确地预测下一个词,说明模型已经将输入的数据转化为了“自己的[[孩子天生爱学习 心理表征|心理表征]]”,建立了自己的[[Transformer#^3e83c5|理解]];
- 因此,提高预测下一个词的准确度,就需要迫使模型学习更多的真实世界的知识,建立世界模型。
- **人类在阅读时,大脑发生了什么**:
- 阅读和听力的过程,其实是不断的调用长时记忆中的已知,然后与阅读材料上的新知建立关联,形成理解的过程。
- 我们会基于已知来预测和自动补全接下来要读到的内容,**预测值和实际值的差异会构成阅读反馈**:
- if 预测比较准确,阅读顺畅,说明理解了,阅读其实是在预测下一个词
- 例子:读英文文章,不是每个单词都认识,但是通过上下文能够猜测到某个单词的意思,?% 单词认识的情况下就能理解内容。
- 理解的情况下,大脑对概念进行进一步加工,修剪知识框架,建立新的知识关联,调整心理模型,最终提现的结果就是通过阅读丰富了知识。
- if 经常卡壳,说明新的输入无法与长时记忆形成关联,预测不到下面会读到什么,也就提现为[[为什么学渣读书犯困,学霸读书生龙活虎?知识体系的科学原理|读书犯困]]。
- **结论**:生成式 AI,例如[[GPT的训练过程(archive)]],就是人类阅读的翻版
- > 1964年尔文·波洛克(Irwin Pollack)和J.M. 皮克特(J.M. Pickett)做了一个实验。把被试在休息室里的对话剪辑成个别的词抽取出来再放给本人听,结果本人也只能识别出自己说的话的一半。这证明了,在我们的对话中,我们依靠语境、彼此共同的背景知识和语言知识进行预判,最终达到理解的效果。[[听与说 听力理解]]
## 参数与预测的关系
- 大语言模型本质上其实只有一件事,就是**预测下一个词的概率分布模型**。而预测下一个词的准确度则取决于两个重要的变量,一是训练模型的数据量(D),二是训练出的[[parameters 参数]]数量。因此我们会发现参数与模型最终的预测结果有着一些联系:
- **参数决定了预测的准确度**:这有点像人类的学习规律,海量、丰富、高质量的输入,在学习的过程中不断优化大脑[[孩子天生爱学习 突触|突触]]连接,就会表现为学习能力更强,知识渊博。相反,而**小数据量**容易出现[[overfitting 过度拟合]]的问题,就好像对学习者进行了题海战术,在题海范围内的题都能非常适应,但是一旦超出了题海范围就不会做了。
- **参数是知识的载体**:参数承载了模型从数据中学到的所有知识和模式。换句话说,如果模型能够准确地预测下一个词,那就意味着模型已经将信息转化为了知识和模式,当它再生成时,运用的是自己的知识来解决问题。这一点也很像人类的学习方式,学习者抓取外界的信息,经过大量的实践,形成越来越准确的心理表征,形成模型,再通过与外界交互来优化模型。
- **迫使模型学习更多的世界知识**:预测下一个词其实是一项非常有难度的任务。对比一下人类处理信息或学习的过程。我们在阅读或者听别人说话时,如果我们想要顺畅地理解,需要具备一定的知识体系或者拥有相同的背景文化,否则的话就会句句难度,大脑进入宕机状态,不能处理这么多信息。做到“能听懂”,其实就是提前预测到了下一个要出现的词是什么,这就必须提前做一些准备功课,了解“世界真实的背景信息”后,就能够预测了。因此,如果想要模型生成更加准确的下一个单词,就要“迫使模型学习更多世界知识”。
# how
# how good
# Ref.
- [Hinton揭秘Ilya成长历程:Scaling Law是他学生时代就有的直觉](https://readwise.io/reader/shared/01jbzxw2rdx5jb0n8jqsav5hfm)
- [[Intro to LLM]]
- [2.1 信息流质量决定生命质量](https://readwise.io/reader/shared/01jczss42pfaj984y480qtn86t)
- [[生成式 AI 对人类学习的启示]]
- [30年冷板凳,诺贝尔物理学奖得主Hinton的AI往事](https://readwise.io/reader/shared/01jf6j5p1kezx8qg2s1bfpcvfx)