经过预训练的[[LLM 大语言模型]]自主学习了人类互联网中海量的信息,将这些内容压缩进一个由大量“参数”构成的神经网络中。随后,通过后续的精细化训练,最终构建成了一个庞大的知识库模型。当我们给出一个提示(prompt)时,模型便会根据自己学到的内容进行回应。 这样的知识库大模型,就像人类的[[长期记忆 LTP]]一样,是我们在人生漫长旅程中一点一滴积累下来的知识体系。平时,这些知识大多处于“休眠”状态,只有当真正需要使用时,我们才会从长期记忆中提取出相关信息,再进行加工,最终用以解决实际的问题。而这种加工信息的能力,正是人类的“工作记忆”。然而,人类的工作记忆容量非常有限,一般只能同时处理 5±2 个信息片段。例如,直接记住一个电话号码“15647839980”很困难,但如果将其分成几个组块“156-4783-9980”,就会容易得多。 与人类工作记忆类似,在大语言模型中也有对应的概念,称为[[context length 上下文长度|上下文窗口]](context window)。上下文窗口是指模型在训练和推理阶段能够同时记住和调用的信息长度。以ChatGPT为例,对话过程中记录的上下文,就是模型能够一次调用的信息范围。过去的 GPT-3 模型仅有 2048 个 token 的上下文长度,而最新的 GPT-4o 模型据估计已经达到了 20 万 token。 这些概念为什么重要?带来了哪些启发?在[[Andrej Karpathy]]的视频《Deep Dive into LLMs like ChatGPT》中,我看到一种有趣的用法——如果我们将需要的信息直接复制到对话框里,模型的回答质量会明显提升。这种方式与人类解决问题的过程十分相似:当我们要写作或解决某个难题时,通常不能只凭脑海中模糊而零散的记忆。我们往往需要把过去看过的书籍、记下的笔记重新翻阅,再经过仔细的思考、加工和构建,才能开始精准地表达和输出。 这种类比给了我一个重要的启示:学习不能仅停留于阅读和输入,而必须伴随输出。纯粹的阅读和信息输入,只能构建模糊而零碎的记忆网络。只有当我们开始解决问题、进行写作等积极输出时,这些零碎的知识才能逐渐被加工、重组,最终形成能够精准调用、用以解决实际问题的知识模型。 今天正巧是世界读书日,希望我们都能读有所思,思有所行,将知识转化为真正的智慧。