diffusion 扩散模型 - 朱婉妤的知识库

- Objective: why解决什么问题？ - Breadcrumb: # 概念阐释 "Diffusion" 扩散模型是一种用于生成数据（如图像、音频或文本）的[[深度学习 Deeplearning]]方法。这种模型的核心思想是通过模拟数据**从有序状态向无序状态（"扩散"过程）的过渡**，然后再训练模型以逆转这一过程（即从无序状态恢复到有序状态），从而生成新的数据实例。扩散模型通常用于生成图像和其他类型的生成模型任务中，因为它们能够产生高质量、高分辨率的输出。 # 实例 - [[Sora]] - Dall-E - Stable Diffusion - Runway - Genmo - Pika # 相关内容 ## 工作机制扩散模型的工作机制可以分为两个主要阶段： 1. **正向过程（扩散过程）**：在这个阶段，模型逐步地将数据引入噪声，直到数据完全或几乎完全变成随机噪声。这个过程通常通过多个步骤逐渐完成，每一步都会向数据中添加一些噪声。 2. **反向过程（去噪过程）**：一旦数据被转化为噪声，模型就会尝试逆转这一过程，从噪声中恢复出原始数据或生成新的数据实例。在这个阶段，模型学习如何从噪声中逐步去除噪声，最终恢复出清晰的数据实例。这一过程需要模型准确地预测在每一步去噪过程中应该移除多少噪声，以及如何移除噪声，这对模型的学习能力提出了很高的要求。 ![](https://images.openai.com/blob/aa8b687c-bee5-4d72-a1c8-1350d33c80d3/figure-diffusion.png?trim=0,0,0,0&width=3200) ## 类比于[[LLM 大语言模型]] 这与大语言模型（LLM）的工作概念有显著的不同：LLM 以迭代的方式产生一个接一个的 Token（这被称为[[自回归采样]]）。一旦一个 Token 被产生，它就不会被改变。当你使用像 Perplexity 或 ChatGPT 这样的工具时，你可能会看到这种效果：答案逐字逐句地出现，就像有人在打字一样。 # 参考资料 - [揭秘内部：OpenAI 的 Sora 模型如何运作 [译]](https://readwise.io/reader/shared/01hsyj4hvs89nr185snqwb5tpz)