# why # what - 以预训练为核心,基于 transformer 架构的生成式 AI,主要的交互方式是 chat。 - G 生成式AI - GPT 的核心思想是生成(费曼) - [[生成式 AI]] - [[LLM的本质是自回归 transformer]] - GPT 只做一件事:生成从未见过的新的内容 - P 预训练 - [[Pre-training 预训练]] - 其中的 99% 集中在了预训练这个环节(Pre-trained,P) - 预训练的本质是海量阅读,在海量的数据上进行参数调整(类比于人类的学习过程) - 举个例子: 用人肉训练一个 GPT,需要多少年? - 训练一个 GPT,需要一个人 50 亿年的时间 - 以 GPT-4 为例: - 参数:1.8 万亿 - 训练数据:15 万亿 token - 如果一个人每秒可以进行 10 亿次的加法和乘法运算(就是 transformer 在进行的计算[[矩阵向量乘法]]),那么这个人需要多长时间训练出一个 LLM - GPT-3: 1000 万年 - iPhone,300 年,[[A18 芯片]] , 每秒钟可以进行 35 万亿次的[[浮点数]]计算(35TOPS)。 - GPT-4: 50 亿年 - T transformer - 神经网络架构是 transformer(T) - [[Transformer]] - 视觉化 LLM - GPT 的短时记忆与长时记忆 - attention 模块:工作记忆 - MLP 模块:长时记忆 - Chat 则是它与人类的交互方式。 # how # how good # Ref. - [和ChatGPT 的723天](https://www.youtube.com/watch?v=YTcEH9Fy-PI&list=PLZlSADAMEfUB1b4o_LR9661bgsm1hk0i3&index=3&t=78s)