Intro to LLM - 朱婉妤的知识库

# WHY [[LLM 大语言模型]]的原理，以 GPT，llama 为例。 # WHAT - 第一部分：什么是大语言模型 LLM - 阶段 1：预训练 - **模型的[[parameters 参数]]是如何获得的？** - 预测与压缩（参数）之间有非常密切的关系[[预测即压缩压缩即智能，智能即具备理解力]] - **what is this LLM really doing？[[LLM本质]]上在做什么？** - 神经网络如何进行推理？("梦见网页“而不是一字一句的复制，互联网生成器) - 神经网络是如何工作的，到底是如何预测下一个词的，黑匣子里是什么？ - 目前，人类并不知道黑匣子是什么。我们能够了解模型的架构，我们清楚地知道在其各个不同阶段发生的数学运算，但是万亿参数会遍布在整个神经网络中，我们能做的是制定相应复杂的评估方法。 measure，adjust，iterate，optimize，evaluate - 我们能做的只有调整和优化这些参数，让模型在预测下一个词时表现的更好。 - 这有点颠覆我们的认知，我们创造了一个我们不能完全了解的机器，它并不像一辆汽车，对于汽车的每个部件我们都是了解的，但是大语言模型不是。 - 举一个例子，逆向工程，问 GPT4，汤姆克鲁斯的妈妈是谁？它知道。但是问who is Marie Lee Pfeiffer'son?它却不知道了。这个例子表明模型在使用互联网数据进行训练后，似乎建立了一套自己的知识库，但是如果人类想使用这套数据库也需要具备一定的知识体系，知道如何从一个正确的角度向他提问。（GPT4o 利用多模态解决了这个回答） ![](https://image.harryrou.wiki/2024-08-24-CleanShot%202024-08-24%20at%2008.25.00%402x.png) - 阶段 2：微调fine tuning，获得一个真正的 AI 助手 - 阶段3：比较（强化学习） - 其他 - 标签说明 - 人机协作 - 模型比较：开源与不开源 - 第二部分：大模型的现在和未来 - [[规模法则 scaling laws]] - 大模型的进化关键，像人类一样**使用工具** - 大模型的进化主轴：**感知能力**，多模态，看、听、说 - 未来的方向 - [[LLM本质#^20b23f|system2]] - **自我提升**：[[奖励函数，LLM 超越人类的挑战]] - **GPT 助理**: - [[RAG 检索增强生成]]可以检索你自己的知识库，定制专家模型，而不是用一个模型解决所有问题 - 第二部分总结：[[LLM OS]] - ![](https://image.harryrou.wiki/2025-07-06-CleanShot%202025-07-07%20at%2007.31.48%402x.png) - 未来几年内LLM能做的事 - [[context length 上下文长度]]相当于计算机的内存 - LLM类比当今的电脑架构、LLM 的经济环境类比操作系统的开源和不开源 - GPT、Bard、Claude相当于 windows、MacOS - llama 相当于 Linux - 第三部分：安全问题 # HOW ## 大语言模型训练步骤 - 阶段 1：预训练 - 将互联网数据（10 TB）输入进神经网络模型进行训练，例如训练llama 270b大概需要 6000 个 GPU，运行 12 天，花费 200 万美元。预训练阶段是成本最高的阶段。训练好后会得到一个参数文件，参数的权重决定了预测的内容。10TB 的互联网数据会获得140GB 的参数文件，大概压缩了 100 倍。 - 因为成本很高，所以即便是公司也会以年为单位迭代 - 阶段 2：微调fine tuning，获得一个真正的 AI 助手 - 预训练后的LLM还不会回答问题，例如你给它一个问题，它会返回更多问题， - 微调的目的是将模型从一个网页生成器变成一位有用的“助手模型”，能够帮助用户解决问题。 - 微调的过程与预训练最大的区别在于数据集，预训练讲求数据量大，但质量低。微调的数据量可以小，例如 100000 份Q&A 文件，但是质量要求很高。 - 公司会聘请人类来编写答案，公司还会提供相应的标签说明文件来规定答案的质量 - 微调因为很便宜所以可以迭代很快，每天、每周 - 阶段3：比较（从人类的反馈中进行强化学习） - 有的公司会使用答案对比，这一步可以和第二步是“and/or"的关系，比较答案要比纯生成答案更容易。在第二阶段中，模型会生成候选答案（例如，几个候选的“俳句”）。人工标注者不需要自己写出完整的答案，而是通过比较模型生成的候选答案，选择出最好的。这样做比直接写答案要更容易。然后，在第三阶段的微调过程中，可以利用这些比较标签（即哪一个候选答案更好）来进一步优化模型。这一方法有助于减少人类标注者的工作负担，同时提高模型的性能。 ![](https://image.harryrou.wiki/2024-08-25-CleanShot%202024-08-26%20at%2007.51.23%402x.png) # HOW GOOD（思维模型） - 大模型的训练过程类似于人类学习的过程 - 如何更好地与大模型合作 # ref. - ![](https://mmbiz.qpic.cn/sz_mmbiz_png/Wp9RhwK45Wico21XndQqFHHSg9sXApFYMmgTqrpjHwp8mBuMN2GHLEpbeHjEDsXdEMdvR9rvcxJ18uBISDg2FJg/640?wx_fmt=png&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1) - [GPT-Intro to LLM](GPT-https://chat.openai.com/share/5f42ec69-c936-4ebb-affb-2f6f2803deeb) - [Readwise](https://read.readwise.io/new/read/01hhtrqw42rdqw5hyv7j5gf0q4)