# why
- 超过 99% 人类回答的模型。
# what
- 发布时间:2024 年 12 月
- o1
- o1-mini:展示o1管道或框架的简化版本
- o1-preview
## 定义
- > 官方:a new large language model trained with reinforcement learning to perform complex reasoning. o1 thinks before it answers—it can produce a long internal chain of thought before responding to the user.
- o1是基于强化学习的大语言模型,用于处理复杂的任务。o1 模型在回答前会进行思考,在回答用户之前会在内部生成很长的[[CoT]]思维链。
- [[深度解读“强化微调”,o1模型训练的关键|强化微调]]和思维链让 o1 成为了一款[[推理模型]]。
# how
## o1模型的原理
- [[self-play RL]]、[[深度解读“强化微调”,o1模型训练的关键|强化微调]]
- [[AlphaGo]]、[[RL 强化学习]]、[[蒙特卡洛树搜索]]
- [[CoT]]思维链:chain of thoughts
- 预测下一个 token => 预测下一个思维链
- [[test-time compute]]
- 计算资源放在了使用的时候(思考时间)
- [[inference scaling law]]
# how good
## 什么时候使用o1模型?
- 像人一样,需要思考的事情
- 编程:人类定义问题。编写一个单元测试,明确正确的运行方式。剩下的交给 o1 来完成
- 学习:出现幻觉的可能性更少
- 头脑风暴:写作、解决问题、策划方案
- [[如何使用狂暴模式 prompt,让o1变成o1 pro]]
# Ref.
- 官方
- [introducing OpenAI o1-preview](https://openai.com/index/introducing-openai-o1-preview/)
- [o1 mini](https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/)
- [learning-to-reason](https://openai.com/index/learning-to-reason-with-llms/)
- o1发布会
- CoT 论文
- [o1 研发团队完整采访:Ilya早期曾参与,灵感源于AlphaGo](https://readwise.io/reader/shared/01j9g9mxvz5xpxkq8s36pnv5s7)
- [视频](https://readwise.io/reader/shared/01j9g9kd5rrbh51c9bnapd2fs6)
- [o1 模型:你需要更新一下关于 LLM 的心理模型了?|01/12 days of openai:o1](https://www.youtube.com/watch?v=mx3BhlqnvEs&list=PLZlSADAMEfUB1b4o_LR9661bgsm1hk0i3&index=2&t=2s)
- [官方 blog](https://openai.com/o1/)
- [https://readwise.io/reader/shared/01j7nh08f9speydbcdezwmnmys](https://readwise.io/reader/shared/01j7nh08f9speydbcdezwmnmys)
- [深入聊一聊 openai (高考数学满分)的 o1 新模型](https://mp.weixin.qq.com/s/lKDoaSVqghBms4hvYg1IsA)
- 直播链接:
- [openai o1 推理模型,是对教培路线的降维打击。](https://mp.weixin.qq.com/s/3VctBkKNShpqZE_77fxmuA)
- [教育内卷的终极解药](https://mp.weixin.qq.com/s/j2V8T57qRodVRN2rnBhchQ)
- [一个人一生只需要学习两个学科:语言和科学](https://mp.weixin.qq.com/s/Bzi67l0Y2hlDzbiWI1TZXQ)
- [高考数学满分o1,参加高中数学奥赛能得满分吗?](https://mp.weixin.qq.com/s/FfZDfpIm6woLUN6gN8J5cA)
- [突发!o1:博士物理 92.8 分,IOI 金牌水平](https://readwise.io/reader/shared/01j7mhwh45rxzgezws60wwhphm)
- [Learning to reason with LLMs](https://openai.com/index/learning-to-reason-with-llms/)
- [[855王小川谈 o1:从快思考走向慢思考]]
- [[OpenAI第一场直播就炸场!o1满血版上线,史上最贵订阅费:1450元/月]]
- [[908 o1模型:为什么o1如此重要?]]
- [[o1方法性能无上限!姚班马腾宇等数学证明:推理token够多,就能解决任意问题]]
- [o1模型解 2022 年数学高考题,用 prompt 加长思考时间](logseq://graph/info&tools?page=o1%E6%A8%A1%E5%9E%8B%E8%A7%A3%202022%20%E5%B9%B4%E6%95%B0%E5%AD%A6%E9%AB%98%E8%80%83%E9%A2%98%EF%BC%8C%E7%94%A8%20prompt%20%E5%8A%A0%E9%95%BF%E6%80%9D%E8%80%83%E6%97%B6%E9%97%B4)
- [o1 模式对艺术品的解读](https://btcml.xetslk.com/s/1mDJAH)