这篇文章主要讲述了一个关于施乐复印机的故事,并将其与大语言模型(如ChatGPT)进行了类比。
故事中提到,施乐复印机在复印房子平面图时出现了问题,副本与原件存在微妙的差异。经过调查,发现是复印机使用了一种有损压缩格式,导致图像中的压缩伪影无法立即识别。这个问题在施乐发布了一个补丁后得到了解决。
作者认为,这个故事值得我们注意,因为它与大语言模型有一些相似之处。作者举例说,想象一下,如果我们计划为万维网上的所有文本创建一个压缩副本,以便存储在有限空间的服务器上,我们可能需要使用有损压缩算法。这样一来,虽然我们可以保留大部分信息,但无法通过搜索准确的引用来查找信息,只能得到近总结:
这段文字主要讨论了大型语言模型(如ChatGPT)与有损压缩算法之间的类比。作者指出,大语言模型通过重新打包万维网上的信息来生成回答,这类似于有损压缩算法中的插值技术。类似于图像压缩中通过查看周围像素来重建丢失像素的方法,ChatGPT也通过查看上下文来生成文本回答。
作者提到了马库斯·赫特提出的“压缩人类知识奖”,该奖励要求无损压缩维基百科的特定快照。作者认为,更好的文本压缩将有助于实现人类级别的人工智能,因为通过理解文本可以实现最大程度的压缩。
然后,作者讨论了大型语言模型对文本中的统计规律的识别能力。虽然这些模型可以识别文本中的相关性并给出合理的回相反,我们在谈论使用大语言模型来辅助人类作家创作原创作品的可能性。在这种情况下,我认为大语言模型可以提供有用的帮助,但不应该成为创作过程的主要工具。大语言模型可以提供灵感、构思和背景知识,但最终的创作过程应该由人类作家来完成。这样可以确保作品具有人类的情感和创造力,而不仅仅是机器生成的文本。
然而,这并不意味着在成为专业作家后使用大语言模型的模板是安全的。即使成为专业作家,写作仍然是一个挣扎的过程。有时候,只有在写作的过程中,你才能发现自己最初的想法。大语言模型生成的文本可能与人类作家的初稿相似,但它缺乏原始想法的拙劣表达和重写时的指导。因此,依赖大语言模型的模板可能会限制作家在创作过程中发现和表达自己想法的能力。
写作并不是简单的复制和粘贴,而是一个发展和表达思想的过程。虽然有可能在未来创造出一个能够自主写作的人工智能,但目前我们仍然需要依靠自己的努力和创造力来进行写作。大语言模型可以作为一个参考工具,但不能取代作家的思考和表达能力。
---
作者使用的施乐复印机的例子中提到,有损压缩格式和无损压缩格式的区别本身不是问题,而是复印机以一种微妙的压缩格式让输出的数字可读,但并不准确。类比于GPT的「幻觉」,回答似乎可信,但不一定准确,这时候需要我们人脑中储备的知识来辨别或借助搜索引擎来查询。人脑的学习也是对客观知识的有损压缩,在输入到输出的过程中会出现3种情况:
- 低质量信息输入,garbage in, garbage out(似乎很自洽,但并不是事实)
- 对信息理解有误,输出时也就是错的,可以经过反馈再加工来调整
- 在自己的理解程度之上进行学习,学习和自己相关的,能够理解的部分
除了第一种情况外,其它两种情况都是过程,就像使用Obsidian做的费曼笔记一样,笔记的费曼程度、颗粒度都取决于自己当下对知识的理解,但当下的理解只是在「过程」中,对于知识的掌握会在不断地学习与实践中逐渐从模糊到清晰。