# why
# what
- **“Latent”** 本身有“隐藏的、潜藏的”意思。
- 在大模型里,“latent space”指的是模型用来进行内部思考或内部表示的一种多维向量空间。也就是说,当我们把文本、图片或其他信息输入到一个神经网络时,网络会把这些信息“翻译”成一连串数字(向量),从而更方便它在内部处理和运算。
- 这个数字化表示是“隐藏”的:它并不是人能直接读懂的文字或图片,而是模型根据数据背后的一些“统计规律”所抽取出来的特征。
# how
### 打个比方
想象你是一名侦探,你收集到一堆线索:指纹、毛发、鞋印,甚至某些不为人知的小细节。你把所有线索都系统整理、编码、并保存在一个“侦探笔记”里。这个笔记里的记录方式很“抽象”,外人即使看到了也不一定明白。但只要有新的线索进来,你就能迅速比对并找到线索之间的关联、可能的嫌疑人等等。
- 这个“侦探笔记”就是**latent space**的感觉:你把所有真实世界的输入信息做了某种抽象化、浓缩化的记录,后续要判断、预测时,就利用它。
### 直观例子
- 当大模型(比如 ChatGPT)在处理“猫”这个概念时,它不会简单地只记录“cat 这个单词”,而是会把“猫”与它相关联的一系列属性(例如:有四条腿、喜欢抓老鼠、跟‘猫咪’‘kitty’等同义词相关……)用数字向量的形式“埋”在内部的latent space里。
- 当输入一个新句子时,模型会在这个隐含向量空间里寻找它与已有的“猫”向量靠近或远离,来理解这段话里是不是在说猫,或者是与猫相关的概念。
# how good
# Ref.
- [潜在空间与语义空间两个概念的区别与联系](https://readwise.io/reader/shared/01jhexekj8r7k9hpq1rq8bmq1q)