- # why
- 直接带来经济价值的作图 AI。普通人也能用来生产高质量的配图了。
- # what
- useful/ accurate and valuable 精确、准确、有价值的
- natively multimodal model 原生[[多模态]]模型
- native in-context learning 原生上下文学习
- 4o base world knowledge 4o的世界知识
- unified post-training stack 统一的训练后堆栈
- useful information not just decorate
- instruction following准确的指令跟随
- 可以处理 10-20 个不同的对象
- multi-turn generation 多轮生成
- 在一个画面中,根据上下文进行多轮的修改
- in-context learning 情境学习
- 可以通过上传的图像进行组合、修改、转换风格
- [[gpt-4o原生作图 json 结构 prompt]]
- # how
- **GPT-4o 原生作图 vs [[DALL·E]] 差异**
- 原理差异:使用的是[[LLM的本质是自回归 transformer]]生图方式,不再使用[[diffusion 扩散模型]]
- [[多模态]]的威力
- 本质上是多模态 llm 让文生图有所差异
- tokens - transformer - diffusion - pixels
- **改进能力**
- 文字的渲染
- 连续生成、修改图片
- 指令跟随增强
- 原生 4o ,在 12.8 万的上下文上进行学习,进行画画
- 4o 的世界知识
- **测试案例**
- 把照片转换成各种风格:
- ghibli吉卜力风格
- 卡通风格4格连环画
- 照片级真实感和风格
- 科学信息
- lego风格
- minecraft
- voxel
- 插图to [[DSLR]]照片
- 文章头图配图
- 文章内容配图
- logo 设计
- 书籍封面设计
- [[gpt-4o原生作图 json 结构 prompt]]
- # how good
- **生图 sop**
- 构思(内容+审美)
- 审美:艺术元素的原理、构图的原理、艺术家的风格
- 人脑,自己想
- 外部启发:模仿 OpenAI 官方使用案例;借鉴他人分享的 use case;
- GPT 对话:和 gpt 聊一聊,启发配图思路
- 第一稿
- 写 prompt
- 迭代
- 用 logseq 管理 prompt 迭代
- 精细化工
- 设计不同版本
- figma 等 meta tool进行处理
- **生图sop的要点**
- - 清晰、具体的文本非常重要,有时候可以添加准确的 emoji(可以用 GPT-4.5先迭代)
- 生成各种风格,给类似风格的图片,配指令
- 可以圈出局部进行修改
- 清晰的指令跟随,修改画面中的文字、添加附件、修改图片细节
- **文章配图**:
- 和 4.5 商量,“*我写了一篇文章,我想给每一节内容配一张图片,来提升阅读体验。我给你发一段文本,你帮我想一想,用什么样的视觉内容进行表达?不需要做图,给我内容描述即可。*”
- 再用 4o+给定一张风格图片,进行生图。“*根据上一轮对话的内容,生成一副图片。"*
- 在一个对话中使用多个模型,可以切换模型
- # Ref.
- https://readwise.io/reader/shared/01jq8mw8e7cxgnv253pmrm2384
- [openai blog](https://readwise.io/reader/shared/01jqptthkjb6kk4f5wy4sfk18v)
- [有了gpt-4o,谁还好意思说自己没有“配图自由”?没有图片创意自由?](https://readwise.io/reader/shared/01jqtr3wzqy2vthy0bmzn3n2qx)
- [gpt生图JSON代码解释](https://readwise.io/reader/shared/01jqtverf0kxwz9ev0dp1fgcej)
- [GPT4o生图风格素材库](https://readwise.io/reader/shared/01jqtq5b9j3bka59e98j7fs6s8)
- [GPT4o原生图片的 5 种典型玩儿法](https://readwise.io/reader/shared/01jrwg081vf8f3kf217j1xv756)