LLM本质 - 朱婉妤的知识库

- Objective: 大语言模型本质上是在做什么？ - Breadcrumb: # 概念阐释 [[LLM 大语言模型]]本质上只做一件事，预测下一个单词。预测下一个词的概率分布使用的是[[gradient descent 梯度下降]]优化算法。 # 实例在这个例子中，预测句子"cat sat on a"后面的词，mat 这个词的概率为 97%。 ![](https://image.harryrou.wiki/2023-12-17-CleanShot%202023-12-17%20at%2010.36.51%402x.png) # 相关内容 ## the network dreams internet documents 当模型“学习”过互联网的知识后进行推理。因为模型不是一字一句地“记住”所有页面的内容，而是用它记住的知识重新生成内容。在这种情况下，模型有时候生成的内容是合理的，有时候则是看上去“合理”的虚构内容： - 例如：ISBN 或者页面其实并不存在，但他知道 ISBN 后面会跟一串类似数字的东西，这看上去很合理。 - 或者模型生成一篇关于黑鼻鱼的内容，如果你查阅资料，这个信息大致是正确的。所以网络拥有关于这种鱼的知识，它知道很多关于这种鱼的信息。它并不会完全复述训练集中的文档，但它对这些知识进行了一种有损压缩，它大致‘记得’这种知识，然后生成正确的形式，并填充它的一些知识。 - 或者你向模型提出一些问题，它可能会继续生成一些问题。你永远不能100%确定它生成的内容是我们所谓的‘幻想’（或错误答案）还是正确答案。有些内容可能是记住的，有些则不是，但你无法确切知道哪部分是哪部分。 ## system 1&2 ^20b23f 有一本书叫做《思考快与慢》，内容大致说的是人有两种思考问题的方式： - system1，本能的，不假思索的，例如 2+2，或 speed chess - system2，理性的，有逻辑的思考，例如 23x42，比赛时的下棋，需要在脑子中排列出各种可能目前的LLM，在预测下一个词时更像是使用了 system1，“本能“的给出下一个词。但未来的大模型趋势是构建 system2，让模型学会理性”思考“。也可以尝试引导现在的模型进行有逻辑的一步一步的思考。 # 参考资料 - [语言模型-Wikipedia](https://zh.wikipedia.org/wiki/%E8%AA%9E%E8%A8%80%E6%A8%A1%E5%9E%8B)