how transformer work - 朱婉妤的知识库

# why - ChatGPT 等[[LLM 大语言模型]]所使用的[[Transformer]]神经网络架构的工作原理。 # what - 一种模拟人类**学习和输出的过程**，用数学的方式模拟出一个神经网络，对海量的数据进行[[特征学习 Feature learning]]和[[模式识别 Pattern Recognition]]，形成[[孩子天生爱学习心理表征|心理表征]]。 - 在输出时，是在几百层的神经网络里面，经过万亿参数（上万个维度的矩阵进行上万次的[[矩阵向量乘法]]运算）的激活，最终生成下一个[[tokenization|token]]。每一个 token 也是一次在高维[[语义空间]]里的一次语义运动。 # how ## 实现过程 - [[Embedding]]层：[[词嵌入]] - 处理这些语言文本之前，它就先要进行embedding，然后呢把你的所有的文字转化成这种向量的表征。然后呢，再在他的高维的[[Transformer]]的这个模型内部，进行上万次的[[矩阵向量乘法]]，最终就会得出了下一个 token。 - [[自注意力机制]] - [[MLP 多层感知器]]（2/3 的参数） - 重复 embedding&MLP - [[Unembedding]] - [[Softmax]] - [[Temperature 超参数]] - [[logits]] ## 实例 - 通过观看YouTube上面的海量的视频，然后识别出来什么叫猫。把猫这么一个概念在它的脑子里面形成了一个表征，形成了一个生理符号。 # how good - **与[[专家系统]]的区别** - 专家系统是教培模式，把知识装进知识库，教给 AI 明确的规则和逻辑，然后让 AI 去用 - [[Deep Learning 深度学习|深度学习]]作为神经网络的另一种说法，强调了本质，神经网络是通过“学习”的方式进行训练 # Ref. - [[LLM本质]] - [[LLM的本质是自回归 transformer]] - [[How large language models work, a visual intro to transformers]] - [[用一番茄时间回顾 AI 简史（1956～2024）]] # todo - 3b1b系列视频 - [Visualizing transformers and attention | Talk for TNG Big Tech Day '24](https://readwise.io/reader/shared/01jdma91q4khnvznp1w54x90sg) - [Stanford CS25: V2 I Introduction to Transformers w/ Andrej Karpathy](https://readwise.io/reader/shared/01jjdykxap8scrqqgctk31pv2f) - [[LLM Visualization nano-gpt]]