日报491 如果我在OpenAI训练GPT-4 - GPT的演化历程

Q 阅读文章，总结GPT-4训练过程中对你有促动的地方。这篇文章最打动我的地方是OpenAI对GPT-4的整个训练过程是围绕产品的提升与站在用户使用的角度展开的。给到我的启发是全身心的投入到工作或学习本身，关注事情本身是否有在提升，自己每天是否做了该做的事，总会看到回报。 #### 研发的初衷不是为了赚钱 - 在「数据」那一段中提到了，再提升与训练性能的同时降低推理成本，要让大家用得起； - GPT-4发布之后算力不足，但优先让给了用户的推理请求； - GPT-4的32K接口不放是因为算力不够，所以接下来的第一优先级任务是降低4的推理[^1]成本； #### 基于产品提升的发展过程 - 从GPT-3到GPT-3.5 - 满足一些客户反馈，增加基于检索的功能，插入编辑的需求，在少量数据上微调模型的能力； - 开发了代码模型**CodeX**，并且发现自然语言数据和编程代码数据混合在一起对模型的性能不会有负面影响，反而在某些任务上表现更好； - 用更多的数据来训练模型，因为**高质量的数据**对模型的性能有很大帮助； - 增加**数据长度和训练时间**，从原来的2048增加到4096； - 在处理长文、编程代码、自然语言上都有所提升，但没有质的提升，所以最后被称为GPT3.5 - GPT-4 - 技术栈更改：若要将GPT-3架构的模型Scale到非常大的规模，会导致训练成本和推理成本都非常高，于是团队尝试了MoE模型，在**推理**上也能达到要求了； - 扩充训练数据：Scale到很大的规模，数据量不够，在纯文本形式的数据都被训练完了之后，团队注意到网络上的音频、视频、图像数据，这些数据都可以转成文本数据，于是就诞生了音频转文本模型，**Whishper**； - 训练策略：逐步增加，有点像人类学习的过程？ - **推理优化**：从Multi-Head Attention改成了Multi-Query Attention，虽然性能下降了，但推理时带来了非常大的收益； - ChatGPT - 团队发现用户喜欢直接给模型指令； - 经过迭代从单轮变成与模型进行多轮讨论，形成了自然交互，类似于chat的方式； - 在公布了一个版本后，大家继续做自己的事情去了，但没想到已经引发了一次变革； [^1]: 推理在模型训练完毕后，利用这个模型对新的、未知的数据进行预测。 [延展阅读](https://quanzi.xiaoe-tech.com/c_63ccf157b6b60_5jT0v7gv8832/clock_detail?clockId=discuss_943e4246e14b0b1465bbbb2a2e99f46e&app_id=appDlhUKBqJ1468)