Q 概念费曼:llama2,claude2,开源LLM
## llama2
- Meta公司的开源大语言模型
- 700 亿参数的模型在推理层面接近 ChatGPT 背后的 GPT-3.5,但写代码的能力还有较大差距
- 预计Llama 2 的训练数据(都来自公开数据)提升到 2 万亿个 Token(GPT-4 1.8万亿?),上下文长度扩展到了 4000 个字符
- 微调训练 Llama 的常用方法:人类反馈强化学习(RLHF)机制,用 100 万人类标记数据训练出了类似 ChatGPT 的对话应用
## 开源LLM
- 开源意味着任何人都可以拿到模型权重
- 可以用更低的成本和训练数据对模型进行微调,市场的覆盖率会更高。Google的一位高级工程师说道:“只需要几周时间,他们用 100 美元和 130 亿参数的模型,就能做成我们花 1000 万美元和 540 亿参数模型很难做到的事情。”
- 开源的逻辑偏向于在应用中进行迭代改进,这样的迭代速度更快。“Llama 2 最大开源参数版本(700 亿)的训练数据量还不到 OpenAI 三年前训练好的 GPT-3 的一半,但效果好于 GPT-3”。
> 有了 Llama 2 这样的开源大模型,自研的意义更小了。连竞争对手 OpenAI 的研究科学家、特斯拉前人工智能总监安德烈·卡帕西(Andrej Karpathy)都说,Llama 2 的发布是人工智能和大模型发展过程中的重要一天,“Llama 2 是任何人都可以拿到模型权重(参数特征,一个模型最关键的信息)的最强大语言模型。”
Meta 副总裁、人工智能部门负责人杨立昆(Yann LeCun)说,**Llama 2 将改变大语言模型市场的格局。**一位中国大模型创业公司高管解释了这句话:“很快就能看到许多开发大模型应用的公司,把基础模型换成 Llama 2”。
> **开源的逻辑偏向于大模型达到一定能力后,就扩大新技术的覆盖范围,让更多人使用技术,然后从大量应用中改进模型。**而闭源的公司,如 OpenAI 更偏向于技术领先,研发强大模型后再推广给更多人。这次 Llama 2 最大开源参数版本(700 亿)的训练数据量还不到 OpenAI 三年前训练好的 GPT-3 的一半,但效果好于 GPT-3,就是最好的例证之一。
> 今年 5 月,Google 一位高级工程师在内部撰文称,尽管 Google 在大模型的质量上仍然略有优势,但开源产品与 Google 大模型的差距正在以惊人的速度缩小,开源的模型迭代速度更快,使用者能根据不同的业务场景做定制开发,更利于保护隐私数据,成本也更低。
> “只需要几周时间,他们用 100 美元和 130 亿参数的模型,就能做成我们花 1000 万美元和 540 亿参数模型很难做到的事情。”他说,“我们没有护城河,OpenAI 也没有”。
## claude2
- Anthropic公司的大语言模型
- 相较之前的版本,Claude 2在代码、数学、推理方面都有了史诗级提升
- 考试测评成绩在GRE阅读和写作方面好过90%的考生,美国律师资格考试的多项选择题得分76.5%,美国医师执照考试正确率超过60%
- prompt最多可以包含100k的token,“这意味着:**Claude 2可以一次读取几百页的技术文档,甚至一整本书!**”
- claude2具有更高的安全性能
[日报493](https://quanzi.xiaoe-tech.com/c_63ccf157b6b60_5jT0v7gv8832/clock_detail?clockId=discuss_7a1a909c48cca5031529bd05df20ab08&app_id=appDlhUKBqJ1468)