自注意力机制 - 朱婉妤的知识库

# why [[Transformer]]的核心技术。 # what - Transformer的**核心**是**自注意力机制（Self-Attention）**。它让模型在处理一个词时，不仅只关注它前面的词，还能够**同时关注**到上下文中所有其他位置的词，从而更好地理解每个词之间的关系，并得出哪些词是重要的（需要更多注意力），哪些是不重要的，从而进行**权重分配**。这就相当于每个词在看其他词的“重要性”。就像我们在阅读时会划出**关键词**。 - 大语言模型的重要目标就是理解文本，以前的理解都是根据前一个文本，但是 attention 是根据几十k 的[[context length 上下文长度]]来理解。相当于人类的[[学习五元素主动参与工作记忆|工作记忆]] - 上下文长度决定了模型的记忆力，超出这个部分的内容会被“忘记”。但是 2025 年初的 chatGPT 有了“永久记忆”功能。 ![](https://image.harryrou.wiki/2025-01-17-CleanShot%202025-01-17%20at%2015.15.45%402x.png) # how ## 打比方 - 你在课堂上听讲解，假设你正在听一位老师讲解一个故事，比如“今天我们去海边玩”。老师说的每个词都有其意义，但它们之间也有联系： - “今天”是时间的指示词，提醒你今天发生的事； - “去”表示动作； - “海边”是你将要去的地方； - “玩”是动作的最终目的。 - 在听讲的过程中，你**同时**会关注每个词，理解它们之间的联系。比如，“去”跟“海边”有很强的关联，它们组成了一个完整的意思，而“玩”则是你要做的事情。你并不是先理解“今天”，然后理解“去”，接着理解“海边”，再理解“玩”，而是把整个句子一起理解。这就像Transformer的自注意力机制：每个词在处理时，可以“关注”到整个序列中的所有其他词，**并行地**捕捉它们之间的关系。 - 假设我们有一个简单的句子： - **“猫在桌子上玩耍”** - 在传统的RNN或LSTM中，模型是按顺序一个词接一个词地处理。假设模型正在处理词“桌子”，它可能需要先理解“猫”和“在”后，才能理解“桌子”，再到“上”，最后是“玩耍”。这样每一步都需要依赖前一步的结果。 - 而在Transformer中，模型在处理“桌子”这个词时，不需要按照顺序处理。它会**同时**查看**整个句子**： - 它会通过自注意力机制，理解“桌子”与“猫”的**关系**（“猫在桌子上”），理解“桌子”与“玩耍”的关系（“桌子上玩耍”）。甚至会看到“猫”和“玩耍”的关系（猫是玩耍的主体）。 - 这种“同时”关注整个句子，能够帮助模型更好地理解句子的意思，尤其是对于长句子，能够捕捉到词与词之间的远距离关系。 ## 计算过程 - [[Transformer 模型中的注意力机制 - 3b1b视频DL6]] # how good # Ref. - [transformer概念解释](https://readwise.io/reader/shared/01jhshtjdpkqd1bkwg8pt85qnw) - ![](https://image.harryrou.wiki/2025-06-27-CleanShot%202025-06-28%20at%2007.52.14%402x.png)