# why - 超过 99% 人类回答的模型。 # what - 发布时间:2024 年 12 月 - o1 - o1-mini:展示o1管道或框架的简化版本 - o1-preview ## 定义 - > 官方:a new large language model trained with reinforcement learning to perform complex reasoning. o1 thinks before it answers—it can produce a long internal chain of thought before responding to the user. - o1是基于强化学习的大语言模型,用于处理复杂的任务。o1 模型在回答前会进行思考,在回答用户之前会在内部生成很长的[[CoT]]思维链。 - [[深度解读“强化微调”,o1模型训练的关键|强化微调]]和思维链让 o1 成为了一款[[推理模型]]。 # how ## o1模型的原理 - [[self-play RL]]、[[深度解读“强化微调”,o1模型训练的关键|强化微调]] - [[AlphaGo]]、[[RL 强化学习]]、[[蒙特卡洛树搜索]] - [[CoT]]思维链:chain of thoughts - 预测下一个 token => 预测下一个思维链 - [[test-time compute]] - 计算资源放在了使用的时候(思考时间) - [[inference scaling law]] # how good ## 什么时候使用o1模型? - 像人一样,需要思考的事情 - 编程:人类定义问题。编写一个单元测试,明确正确的运行方式。剩下的交给 o1 来完成 - 学习:出现幻觉的可能性更少 - 头脑风暴:写作、解决问题、策划方案 - [[如何使用狂暴模式 prompt,让o1变成o1 pro]] # Ref. - 官方 - [introducing OpenAI o1-preview](https://openai.com/index/introducing-openai-o1-preview/) - [o1 mini](https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/) - [learning-to-reason](https://openai.com/index/learning-to-reason-with-llms/) - o1发布会 - CoT 论文 - [o1 研发团队完整采访:Ilya早期曾参与,灵感源于AlphaGo](https://readwise.io/reader/shared/01j9g9mxvz5xpxkq8s36pnv5s7) - [视频](https://readwise.io/reader/shared/01j9g9kd5rrbh51c9bnapd2fs6) - [o1 模型:你需要更新一下关于 LLM 的心理模型了?|01/12 days of openai:o1](https://www.youtube.com/watch?v=mx3BhlqnvEs&list=PLZlSADAMEfUB1b4o_LR9661bgsm1hk0i3&index=2&t=2s) - [官方 blog](https://openai.com/o1/) - [https://readwise.io/reader/shared/01j7nh08f9speydbcdezwmnmys](https://readwise.io/reader/shared/01j7nh08f9speydbcdezwmnmys) - [深入聊一聊 openai (高考数学满分)的 o1 新模型](https://mp.weixin.qq.com/s/lKDoaSVqghBms4hvYg1IsA) - 直播链接: - [openai o1 推理模型,是对教培路线的降维打击。](https://mp.weixin.qq.com/s/3VctBkKNShpqZE_77fxmuA) - [教育内卷的终极解药](https://mp.weixin.qq.com/s/j2V8T57qRodVRN2rnBhchQ) - [一个人一生只需要学习两个学科:语言和科学](https://mp.weixin.qq.com/s/Bzi67l0Y2hlDzbiWI1TZXQ) - [高考数学满分o1,参加高中数学奥赛能得满分吗?](https://mp.weixin.qq.com/s/FfZDfpIm6woLUN6gN8J5cA) - [突发!o1:博士物理 92.8 分,IOI 金牌水平](https://readwise.io/reader/shared/01j7mhwh45rxzgezws60wwhphm) - [Learning to reason with LLMs](https://openai.com/index/learning-to-reason-with-llms/) - [[855王小川谈 o1:从快思考走向慢思考]] - [[OpenAI第一场直播就炸场!o1满血版上线,史上最贵订阅费:1450元/月]] - [[908 o1模型:为什么o1如此重要?]] - [[o1方法性能无上限!姚班马腾宇等数学证明:推理token够多,就能解决任意问题]] - [o1模型解 2022 年数学高考题,用 prompt 加长思考时间](logseq://graph/info&tools?page=o1%E6%A8%A1%E5%9E%8B%E8%A7%A3%202022%20%E5%B9%B4%E6%95%B0%E5%AD%A6%E9%AB%98%E8%80%83%E9%A2%98%EF%BC%8C%E7%94%A8%20prompt%20%E5%8A%A0%E9%95%BF%E6%80%9D%E8%80%83%E6%97%B6%E9%97%B4) - [o1 模式对艺术品的解读](https://btcml.xetslk.com/s/1mDJAH)