# why
- ChatGPT 等[[LLM 大语言模型]]所使用的[[Transformer]]神经网络架构的工作原理。
# what
- 一种模拟人类**学习和输出的过程**,用数学的方式模拟出一个神经网络,对海量的数据进行[[特征学习 Feature learning]]和[[模式识别 Pattern Recognition]],形成[[孩子天生爱学习 心理表征|心理表征]]。
- 在输出时,是在几百层的神经网络里面,经过万亿参数(上万个维度的矩阵进行上万次的[[矩阵向量乘法]]运算)的激活,最终生成下一个[[tokenization|token]]。每一个 token 也是一次在高维[[语义空间]]里的一次语义运动。
# how
## 实现过程
- [[Embedding]]层:[[词嵌入]]
- 处理这些语言文本之前,它就先要进行embedding,然后呢把你的所有的文字转化成这种向量的表征。然后呢,再在他的高维的[[Transformer]]的这个模型内部,进行上万次的[[矩阵向量乘法]],最终就会得出了下一个 token。
- [[自注意力机制]]
- [[MLP 多层感知器]](2/3 的参数)
- 重复 embedding&MLP
- [[Unembedding]]
- [[Softmax]]
- [[Temperature 超参数]]
- [[logits]]
## 实例
- 通过观看YouTube上面的海量的视频,然后识别出来什么叫猫。把猫这么一个概念在它的脑子里面形成了一个表征,形成了一个生理符号。
# how good
- **与[[专家系统]]的区别**
- 专家系统是教培模式,把知识装进知识库,教给 AI 明确的规则和逻辑,然后让 AI 去用
- [[Deep Learning 深度学习|深度学习]]作为神经网络的另一种说法,强调了本质,神经网络是通过“学习”的方式进行训练
# Ref.
- [[LLM本质]]
- [[LLM的本质是自回归 transformer]]
- [[How large language models work, a visual intro to transformers]]
- [[用一番茄时间回顾 AI 简史(1956~2024)]]
# todo
- 3b1b系列视频
- [Visualizing transformers and attention | Talk for TNG Big Tech Day '24](https://readwise.io/reader/shared/01jdma91q4khnvznp1w54x90sg)
- [Stanford CS25: V2 I Introduction to Transformers w/ Andrej Karpathy](https://readwise.io/reader/shared/01jjdykxap8scrqqgctk31pv2f)
- [[LLM Visualization nano-gpt]]