日报493 GPT的竞争者们：claude2、llama2

Q 概念费曼：llama2，claude2，开源LLM ## llama2 - Meta公司的开源大语言模型 - 700 亿参数的模型在推理层面接近 ChatGPT 背后的 GPT-3.5，但写代码的能力还有较大差距 - 预计Llama 2 的训练数据（都来自公开数据）提升到 2 万亿个 Token（GPT-4 1.8万亿？），上下文长度扩展到了 4000 个字符 - 微调训练 Llama 的常用方法：人类反馈强化学习（RLHF）机制，用 100 万人类标记数据训练出了类似 ChatGPT 的对话应用 ## 开源LLM - 开源意味着任何人都可以拿到模型权重 - 可以用更低的成本和训练数据对模型进行微调，市场的覆盖率会更高。Google的一位高级工程师说道：“只需要几周时间，他们用 100 美元和 130 亿参数的模型，就能做成我们花 1000 万美元和 540 亿参数模型很难做到的事情。” - 开源的逻辑偏向于在应用中进行迭代改进，这样的迭代速度更快。“Llama 2 最大开源参数版本（700 亿）的训练数据量还不到 OpenAI 三年前训练好的 GPT-3 的一半，但效果好于 GPT-3”。 > 有了 Llama 2 这样的开源大模型，自研的意义更小了。连竞争对手 OpenAI 的研究科学家、特斯拉前人工智能总监安德烈·卡帕西（Andrej Karpathy）都说，Llama 2 的发布是人工智能和大模型发展过程中的重要一天，“Llama 2 是任何人都可以拿到模型权重（参数特征，一个模型最关键的信息）的最强大语言模型。” Meta 副总裁、人工智能部门负责人杨立昆（Yann LeCun）说，**Llama 2 将改变大语言模型市场的格局。**一位中国大模型创业公司高管解释了这句话：“很快就能看到许多开发大模型应用的公司，把基础模型换成 Llama 2”。 > **开源的逻辑偏向于大模型达到一定能力后，就扩大新技术的覆盖范围，让更多人使用技术，然后从大量应用中改进模型。**而闭源的公司，如 OpenAI 更偏向于技术领先，研发强大模型后再推广给更多人。这次 Llama 2 最大开源参数版本（700 亿）的训练数据量还不到 OpenAI 三年前训练好的 GPT-3 的一半，但效果好于 GPT-3，就是最好的例证之一。 > 今年 5 月，Google 一位高级工程师在内部撰文称，尽管 Google 在大模型的质量上仍然略有优势，但开源产品与 Google 大模型的差距正在以惊人的速度缩小，开源的模型迭代速度更快，使用者能根据不同的业务场景做定制开发，更利于保护隐私数据，成本也更低。 > “只需要几周时间，他们用 100 美元和 130 亿参数的模型，就能做成我们花 1000 万美元和 540 亿参数模型很难做到的事情。”他说，“我们没有护城河，OpenAI 也没有”。 ## claude2 - Anthropic公司的大语言模型 - 相较之前的版本，Claude 2在代码、数学、推理方面都有了史诗级提升 - 考试测评成绩在GRE阅读和写作方面好过90%的考生，美国律师资格考试的多项选择题得分76.5%，美国医师执照考试正确率超过60% - prompt最多可以包含100k的token，“这意味着：**Claude 2可以一次读取几百页的技术文档，甚至一整本书！**” - claude2具有更高的安全性能 [日报493](https://quanzi.xiaoe-tech.com/c_63ccf157b6b60_5jT0v7gv8832/clock_detail?clockId=discuss_7a1a909c48cca5031529bd05df20ab08&app_id=appDlhUKBqJ1468)