AI vs HI - 朱婉妤的知识库

![](https://image.harryrou.wiki/2024-11-07-CleanShot%202024-11-07%20at%2016.32.26%402x.png) 为什么学习效率效果是算法？ | | 大脑神经网络 | 大语言模型/人工神经网络 | o1 | [[BOK 知识图谱]] | | ---------- | --------------------------------------------------------- | ------------------------------------------------------------------------- | ---------- | --------------------------------------------------------------------- | | **硬件基础** | 1000 亿个[[孩子天生爱学习神经元构造\|神经元]]，150 万亿个[[孩子天生爱学习突触\|突触]]联接 | 通过海量互联网文本的自主学习后获得的「参数」（GPT-3 1750 亿，GPT-4据估计 1.8 万亿），参数相当于是对人类互联网文本的有损压缩。 | | 50 亿个实体，5000 亿条关系 | | **工作原理** | 生成：每生成一次概念时，是大脑神经网络中数千个**突触联结**的一次放电。 | 生成：每生成一个 token 时是万亿[[parameters 参数]]构成的神经网络的一次激活。 | [[CoT]]思维链 | 调用：当我们提出一个搜索请求时，搜索引擎会在这个50亿实体的网络上快速搜索，调用到相关概念和事实并进行加工，提供更高质量、更结构化的结果。 | | **心理认知过程** | [[人，是如何学习的#^62da6f\|学习闭环]] | 机器学习：[[Deep Learning 深度学习]]+人类微调 | | 搜索引擎公司投入人力物力构建的知识库 | | **学习能力** | 学习闭环各个环节的能力 | GPU 算力 | | CPU | | **学习材料** | [[信息]] | 数据：从海量文本中学习语言模式、概念、知识。模型并不存储数据，而是通过学习获得这些知识并存储在「参数」中。 | | | | **学习效率效果** | 科学学习的道法术器，系统级方案 | 深度学习算法[[Transformer]] | | | | **结果** | 回答是基于平时学习的知识的理解和概括。 | 基于神经网络对人类文本的理解和概括。并非基于硬编码、验证过的事实，所以在生成的准确性和可靠性方面还面临挑战，会存在幻觉。 | | 调用时依赖于硬编码的实体和关系。 | | **心理认知过程** | 长时记忆 | LLM 的[[parameters 参数\|参数]]，2/3 的参数都存储在[[MLP 多层感知器]]中 | | | | **心理认知过程** | 工作记忆 | [[context length 上下文长度]]、[[自注意力机制]]模块 | | | | | system1+system2 | system1 | system2 | | ## 对比学习过程 | 训练过程 | [[GPT的训练过程（archive）]] | 人类的学习过程 | o1 | | -------------------- | -------------------------------------------------------------------------------- | ------------------------------------- | --------------------------------------------------- | | [[Pre-training 预训练]] | - 互联网上的海量文本，万亿 token； - 预测下一个 token[[预测即压缩压缩即智能，智能即具备理解力]]； - 训练占比 99% 以上； | - 学校教育之外的大量课外阅读； - 边阅读边在脑子里预测下一个词； | | | [[SFT 监督微调]] | - 用人类的反馈对原始网络进行微调； - 少而精，只占训练的百分之几； | - 课堂教育、主题阅读 - 有正确答案的反馈，是教育中的「教」； | [[深度解读“强化微调”，o1模型训练的关键\|强化微调]] | | [[RM 奖励模型]] | 针对一个问题提供多种答案，不同答案对应不同的奖励； | - 相当于学习者的“三观”建设； - 奖励建模就类似教育的「育」； | | | [[RLHF 基于人类反馈的强化学习]] | 基于外部反馈来调整自己的学习行为；小样本的推理训练。 | 基于外部环境导向，调整学习行为。考前做题训练。 | [[深度解读“强化微调”，o1模型训练的关键\|强化微调]]，思维链训练；解题元技能、推理能力。 | - - [2.6 信息素养与学习成绩](https://readwise.io/reader/shared/01jdjqcax8yvn3y2sqnxgg1wrp) ## 人类擅长 vs GPT 擅长 - 人类擅长 - 创造性思考 - 对情境的深度理解：人，人的问题，生活 - 价值判断的能力：信仰、信念 - 人类情感：同情心、理解力 - GPT 擅长 - 世界知识模型 - 推理模型：强悍的推理能力 - 信息处理能力：数据处理、高速计算、外部的信息获取 # ref. - [人类学习分两种：模仿学习 GPT和试错学习o1](https://btcml.xetslk.com/s/18VpIf)