# why - ChatGPT 等[[LLM 大语言模型]]所使用的[[Transformer]]神经网络架构的工作原理。 # what - 一种模拟人类**学习和输出的过程**,用数学的方式模拟出一个神经网络,对海量的数据进行[[特征学习 Feature learning]]和[[模式识别 Pattern Recognition]],形成[[孩子天生爱学习 心理表征|心理表征]]。 - 在输出时,是在几百层的神经网络里面,经过万亿参数(上万个维度的矩阵进行上万次的[[矩阵向量乘法]]运算)的激活,最终生成下一个[[tokenization|token]]。每一个 token 也是一次在高维[[语义空间]]里的一次语义运动。 # how ## 实现过程 - [[Embedding]]层:[[词嵌入]] - 处理这些语言文本之前,它就先要进行embedding,然后呢把你的所有的文字转化成这种向量的表征。然后呢,再在他的高维的[[Transformer]]的这个模型内部,进行上万次的[[矩阵向量乘法]],最终就会得出了下一个 token。 - [[自注意力机制]] - [[MLP 多层感知器]](2/3 的参数) - 重复 embedding&MLP - [[Unembedding]] - [[Softmax]] - [[Temperature 超参数]] - [[logits]] ## 实例 - 通过观看YouTube上面的海量的视频,然后识别出来什么叫猫。把猫这么一个概念在它的脑子里面形成了一个表征,形成了一个生理符号。 # how good - **与[[专家系统]]的区别** - 专家系统是教培模式,把知识装进知识库,教给 AI 明确的规则和逻辑,然后让 AI 去用 - [[Deep Learning 深度学习|深度学习]]作为神经网络的另一种说法,强调了本质,神经网络是通过“学习”的方式进行训练 # Ref. - [[LLM本质]] - [[LLM的本质是自回归 transformer]] - [[How large language models work, a visual intro to transformers]] - [[用一番茄时间回顾 AI 简史(1956~2024)]] # todo - 3b1b系列视频 - [Visualizing transformers and attention | Talk for TNG Big Tech Day '24](https://readwise.io/reader/shared/01jdma91q4khnvznp1w54x90sg) - [Stanford CS25: V2 I Introduction to Transformers w/ Andrej Karpathy](https://readwise.io/reader/shared/01jjdykxap8scrqqgctk31pv2f) - [[LLM Visualization nano-gpt]]