- # why - 直接带来经济价值的作图 AI。普通人也能用来生产高质量的配图了。 - # what - useful/ accurate and valuable 精确、准确、有价值的 - natively multimodal model 原生[[多模态]]模型 - native in-context learning 原生上下文学习 - 4o base world knowledge 4o的世界知识 - unified post-training stack 统一的训练后堆栈 - useful information not just decorate - instruction following准确的指令跟随 - 可以处理 10-20 个不同的对象 - multi-turn generation 多轮生成 - 在一个画面中,根据上下文进行多轮的修改 - in-context learning 情境学习 - 可以通过上传的图像进行组合、修改、转换风格 - [[gpt-4o原生作图 json 结构 prompt]] - # how - **GPT-4o 原生作图 vs [[DALL·E]] 差异** - 原理差异:使用的是[[LLM的本质是自回归 transformer]]生图方式,不再使用[[diffusion 扩散模型]] - [[多模态]]的威力 - 本质上是多模态 llm 让文生图有所差异 - tokens - transformer - diffusion - pixels - **改进能力** - 文字的渲染 - 连续生成、修改图片 - 指令跟随增强 - 原生 4o ,在 12.8 万的上下文上进行学习,进行画画 - 4o 的世界知识 - **测试案例** - 把照片转换成各种风格: - ghibli吉卜力风格 - 卡通风格4格连环画 - 照片级真实感和风格 - 科学信息 - lego风格 - minecraft - voxel - 插图to [[DSLR]]照片 - 文章头图配图 - 文章内容配图 - logo 设计 - 书籍封面设计 - [[gpt-4o原生作图 json 结构 prompt]] - # how good - **生图 sop** - 构思(内容+审美) - 审美:艺术元素的原理、构图的原理、艺术家的风格 - 人脑,自己想 - 外部启发:模仿 OpenAI 官方使用案例;借鉴他人分享的 use case; - GPT 对话:和 gpt 聊一聊,启发配图思路 - 第一稿 - 写 prompt - 迭代 - 用 logseq 管理 prompt 迭代 - 精细化工 - 设计不同版本 - figma 等 meta tool进行处理 - **生图sop的要点** - - 清晰、具体的文本非常重要,有时候可以添加准确的 emoji(可以用 GPT-4.5先迭代) - 生成各种风格,给类似风格的图片,配指令 - 可以圈出局部进行修改 - 清晰的指令跟随,修改画面中的文字、添加附件、修改图片细节 - **文章配图**: - 和 4.5 商量,“*我写了一篇文章,我想给每一节内容配一张图片,来提升阅读体验。我给你发一段文本,你帮我想一想,用什么样的视觉内容进行表达?不需要做图,给我内容描述即可。*” - 再用 4o+给定一张风格图片,进行生图。“*根据上一轮对话的内容,生成一副图片。"* - 在一个对话中使用多个模型,可以切换模型 - # Ref. - https://readwise.io/reader/shared/01jq8mw8e7cxgnv253pmrm2384 - [openai blog](https://readwise.io/reader/shared/01jqptthkjb6kk4f5wy4sfk18v) - [有了gpt-4o,谁还好意思说自己没有“配图自由”?没有图片创意自由?](https://readwise.io/reader/shared/01jqtr3wzqy2vthy0bmzn3n2qx) - [gpt生图JSON代码解释](https://readwise.io/reader/shared/01jqtverf0kxwz9ev0dp1fgcej) - [GPT4o生图风格素材库](https://readwise.io/reader/shared/01jqtq5b9j3bka59e98j7fs6s8) - [GPT4o原生图片的 5 种典型玩儿法](https://readwise.io/reader/shared/01jrwg081vf8f3kf217j1xv756)