# why
# what
- 以预训练为核心,基于 transformer 架构的生成式 AI,主要的交互方式是 chat。
- G 生成式AI
- GPT 的核心思想是生成(费曼)
- [[生成式 AI]]
- [[LLM的本质是自回归 transformer]]
- GPT 只做一件事:生成从未见过的新的内容
- P 预训练
- [[Pre-training 预训练]]
- 其中的 99% 集中在了预训练这个环节(Pre-trained,P)
- 预训练的本质是海量阅读,在海量的数据上进行参数调整(类比于人类的学习过程)
- 举个例子: 用人肉训练一个 GPT,需要多少年?
- 训练一个 GPT,需要一个人 50 亿年的时间
- 以 GPT-4 为例:
- 参数:1.8 万亿
- 训练数据:15 万亿 token
- 如果一个人每秒可以进行 10 亿次的加法和乘法运算(就是 transformer 在进行的计算[[矩阵向量乘法]]),那么这个人需要多长时间训练出一个 LLM
- GPT-3: 1000 万年
- iPhone,300 年,[[A18 芯片]] , 每秒钟可以进行 35 万亿次的[[浮点数]]计算(35TOPS)。
- GPT-4: 50 亿年
- T transformer
- 神经网络架构是 transformer(T)
- [[Transformer]]
- 视觉化 LLM
- GPT 的短时记忆与长时记忆
- attention 模块:工作记忆
- MLP 模块:长时记忆
- Chat 则是它与人类的交互方式。
# how
# how good
# Ref.
- [和ChatGPT 的723天](https://www.youtube.com/watch?v=YTcEH9Fy-PI&list=PLZlSADAMEfUB1b4o_LR9661bgsm1hk0i3&index=3&t=78s)