Q 概念费曼:llama2,claude2,开源LLM ## llama2 - Meta公司的开源大语言模型 - 700 亿参数的模型在推理层面接近 ChatGPT 背后的 GPT-3.5,但写代码的能力还有较大差距 - 预计Llama 2 的训练数据(都来自公开数据)提升到 2 万亿个 Token(GPT-4 1.8万亿?),上下文长度扩展到了 4000 个字符 - 微调训练 Llama 的常用方法:人类反馈强化学习(RLHF)机制,用 100 万人类标记数据训练出了类似 ChatGPT 的对话应用 ## 开源LLM - 开源意味着任何人都可以拿到模型权重 - 可以用更低的成本和训练数据对模型进行微调,市场的覆盖率会更高。Google的一位高级工程师说道:“只需要几周时间,他们用 100 美元和 130 亿参数的模型,就能做成我们花 1000 万美元和 540 亿参数模型很难做到的事情。” - 开源的逻辑偏向于在应用中进行迭代改进,这样的迭代速度更快。“Llama 2 最大开源参数版本(700 亿)的训练数据量还不到 OpenAI 三年前训练好的 GPT-3 的一半,但效果好于 GPT-3”。 > 有了 Llama 2 这样的开源大模型,自研的意义更小了。连竞争对手 OpenAI 的研究科学家、特斯拉前人工智能总监安德烈·卡帕西(Andrej Karpathy)都说,Llama 2 的发布是人工智能和大模型发展过程中的重要一天,“Llama 2 是任何人都可以拿到模型权重(参数特征,一个模型最关键的信息)的最强大语言模型。” Meta 副总裁、人工智能部门负责人杨立昆(Yann LeCun)说,**Llama 2 将改变大语言模型市场的格局。**一位中国大模型创业公司高管解释了这句话:“很快就能看到许多开发大模型应用的公司,把基础模型换成 Llama 2”。 > **开源的逻辑偏向于大模型达到一定能力后,就扩大新技术的覆盖范围,让更多人使用技术,然后从大量应用中改进模型。**而闭源的公司,如 OpenAI 更偏向于技术领先,研发强大模型后再推广给更多人。这次 Llama 2 最大开源参数版本(700 亿)的训练数据量还不到 OpenAI 三年前训练好的 GPT-3 的一半,但效果好于 GPT-3,就是最好的例证之一。 > 今年 5 月,Google 一位高级工程师在内部撰文称,尽管 Google 在大模型的质量上仍然略有优势,但开源产品与 Google 大模型的差距正在以惊人的速度缩小,开源的模型迭代速度更快,使用者能根据不同的业务场景做定制开发,更利于保护隐私数据,成本也更低。 > “只需要几周时间,他们用 100 美元和 130 亿参数的模型,就能做成我们花 1000 万美元和 540 亿参数模型很难做到的事情。”他说,“我们没有护城河,OpenAI 也没有”。 ## claude2 - Anthropic公司的大语言模型 - 相较之前的版本,Claude 2在代码、数学、推理方面都有了史诗级提升 - 考试测评成绩在GRE阅读和写作方面好过90%的考生,美国律师资格考试的多项选择题得分76.5%,美国医师执照考试正确率超过60% - prompt最多可以包含100k的token,“这意味着:**Claude 2可以一次读取几百页的技术文档,甚至一整本书!**” - claude2具有更高的安全性能 [日报493](https://quanzi.xiaoe-tech.com/c_63ccf157b6b60_5jT0v7gv8832/clock_detail?clockId=discuss_7a1a909c48cca5031529bd05df20ab08&app_id=appDlhUKBqJ1468)