Stable Diffusion 3官方论文

https://arxiv.org/abs/2403.03206

标题Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

作者Patrick Esser, Sumith Kulal, Andreas Blattmann, 等

机构Stability AI

摘要

该研究探讨了扩散模型（Diffusion models），这是一种强大的生成建模技术，用于处理高维、感知数据，如图像和视频。特别地，研究者们提出了一种新型的生成模型——Rectified Flow（直方流），它通过连接数据和噪声的直线路径来生成数据。尽管直方流在理论上具有更好的属性和概念上的简单性，但尚未成为标准实践。本工作通过改进现有的噪声采样技术，提高了直方流模型的训练性能，并展示了这种方法在高分辨率文本到图像合成中的优越性能。此外，研究者们还提出了一种新颖的基于Transformer的架构，用于文本到图像的生成，该架构使用独立的权重处理两种模态（图像和文本），并允许图像和文本标记之间的双向信息流动，从而提高了文本理解、排版和人类偏好评级。研究者们展示了这种架构遵循可预测的扩展趋势，并且验证了较低的验证损失与通过各种指标和人类评估改善的文本到图像合成之间的强相关性。他们最大的模型超越了现有的最先进模型，并将公开实验数据、代码和模型权重。

引言

介绍了扩散模型的背景和它们在生成高分辨率图像和视频方面的优势。特别指出了直方流模型的潜在优势，并提出了通过重新加权噪声尺度来改进直方流模型性能的方法。

方法

直方流模型：介绍了直方流模型的基本原理和如何通过改进噪声采样技术来提高性能。
模拟无关训练：提出了一种无需模拟的方法来训练流模型，通过直接回归生成概率路径的向量场。
流轨迹：讨论了不同的流轨迹变体，包括直方流、EDM和余弦调度。
为RF模型定制的信噪比采样器：提出了几种新的采样器，用于在训练直方流模型时对中间时间步给予更多权重。

文本到图像架构

描述了一种新的基于Transformer的架构，用于文本到图像的生成，该架构考虑了文本和图像两种模态，并允许它们之间的双向信息流动。

实验

改进直方流：通过大规模研究比较了不同的扩散模型和直方流公式，并展示了新公式的优势。
改进模态特定表示：讨论了如何通过改进自动编码器和使用合成标题来提高模型性能。
模态到图像背景的改进：比较了现有的基于Transformer的扩散背景与提出的多模态Transformer背景的性能。
大规模训练：描述了在大规模数据集上训练模型的过程，包括数据预处理和在高分辨率下的微调。

结论

研究者们展示了通过扩展直方流模型和提出的多模态架构，可以实现与最先进的专有模型相竞争的性能，并且扩展趋势表明未来还有改进的空间。

更广泛的影响

论文讨论了该工作可能对社会的广泛影响，但并未特别强调任何特定的方面。

如果您需要更详细的信息或对特定部分有疑问，请告诉我，我会很乐意进一步解释。复制分享

这篇论文中提到的直方流模型具体是如何改进的？

这篇论文中提到的直方流（Rectified Flow，简称RF）模型的改进主要体现在以下几个方面：

噪声采样技术的改进：
- 论文提出了一种新的噪声采样方法，通过偏向感知相关尺度来改进训练直方流模型的噪声采样技术。这种方法通过重新加权噪声尺度，类似于噪声预测扩散模型，来提高性能。
时间步采样分布的优化：
- 论文提出了几种新的时间步采样分布，包括Logit-Normal Sampling、Mode Sampling with Heavy Tails和CosMap。这些方法旨在给予中间时间步更多的权重，从而提高模型在这些关键时间步的性能。
信噪比（SNR）采样器的定制：
- 论文详细讨论了如何通过改变时间步的分布来等效地改变加权损失函数，从而训练出更优的直方流模型。这些定制的SNR采样器有助于提高模型在中间时间步的性能，这对于生成任务尤为重要。
多模态Transformer架构：
- 论文提出了一种新的基于Transformer的架构，称为MM-DiT，用于文本到图像的生成。这种架构考虑了文本和图像两种模态，并允许它们之间的双向信息流动。这种设计使得模型能够更好地理解和生成与文本描述相匹配的图像。
模型扩展性研究：
- 论文进行了大规模的模型扩展性研究，展示了随着模型大小的增加，验证损失的下降趋势，并证明了较低的验证损失与通过各种指标和人类评估改善的文本到图像合成之间的强相关性。
数据预处理和训练策略：
- 论文描述了在大规模数据集上训练模型的过程，包括数据过滤、预编码图像和文本嵌入，以及在高分辨率下的微调。这些策略有助于提高训练效率和模型性能。

通过这些改进，论文中的直方流模型在高分辨率文本到图像合成任务中表现出了优越的性能，超越了现有的一些最先进的模型。这些改进不仅提高了模型的生成质量，还减少了生成过程中所需的采样步骤，从而提高了效率。复制分享

这种改进的直方流模型，在生成图像时，性能提升最明显的方面是什么？

根据论文内容，改进的直方流模型在生成图像时性能提升最明显的方面包括：

高分辨率图像合成：
- 改进的直方流模型特别针对高分辨率图像合成进行了优化，能够生成具有高图像质量的高分辨率图像。
文本到图像合成的性能：
- 论文中提出的模型在文本到图像合成任务中表现出色，特别是在遵循精确文本提示和空间推理方面。这意味着模型能够更好地理解和生成与给定文本描述相匹配的图像。
人类偏好评级：
- 改进的模型在人类偏好评级方面得到了提升，这表明生成的图像不仅在技术指标上表现良好，而且在视觉上也更符合人类的期望和审美。
预测的准确性和细节：
- 模型在细节处理和精确提示跟随方面表现出色，能够生成更精确和细节丰富的图像。
排版和文本理解：
- 新的多模态Transformer架构特别改进了文本理解、排版和人类偏好评级，使得生成的图像在文本排版和与文本内容的匹配度上有所提升。
样本效率：
- 改进的直方流模型在减少采样步骤的同时，仍能保持或提高生成图像的质量，这意味着模型在较少的迭代下就能达到良好的生成效果，提高了样本效率。
可扩展性：
- 论文中的模型展示了良好的扩展性，随着模型大小的增加，性能持续提升，没有出现饱和现象，表明未来有进一步改进的空间。
与现有技术的比较：
- 论文中的模型在定量评估（如prompt理解）和人类偏好评级方面超越了现有的一些最先进的开放模型和封闭源模型，如DALL-E 3。

这些改进使得直方流模型在图像合成领域成为一个强大的竞争者，特别是在需要高分辨率和高质量输出的应用场景中。

已发布

2024年11月7日

分类

来自

song

标签：