LatentDiffusion模型论文

[2112.10752] 使用潜在扩散模型进行高分辨率图像合成 (arxiv.org)

[提交于 20 年 2021 月 1 日 (v13),最后修订于 2022 年 2 月 <> 日(此版本,v<>)]

基于潜在扩散模型的高分辨率图像合成

罗宾·隆巴赫安德烈亚斯·布拉特曼多米尼克·洛伦茨帕特里克·埃瑟比约恩·奥默

通过将图像形成过程分解为顺序应用 降噪自动编码器、扩散模型 (DM) 实现最先进的技术 图像数据及其他方面的合成结果。此外,它们的配方 允许使用引导机制来控制图像生成过程,而无需 培训。但是,由于这些模型通常直接以像素为单位运行 空间,强大的DM的优化通常需要消耗数百天的GPU和 由于顺序评估,推理成本很高。启用 DM 训练 有限的计算资源,同时保持其质量和灵活性, 我们将它们应用于强大的预训练自动编码器的潜在空间中。在 与以前的工作相比,在这种表示上训练扩散模型 允许首次达到复杂度之间的接近最佳点 减少和细节保留,大大提高视觉保真度。由 在模型架构中引入交叉关注层,我们转向 将模型扩散到强大而灵活的发生器中,用于一般调节 文本或边界框等输入以及高分辨率合成变为 可能以卷积方式。我们的潜扩散模型 (LDM) 可实现 图像修复和极具竞争力的性能的新技术水平 各种任务,包括无条件图像生成、语义场景 合成和超分辨率,同时显著减少计算 与基于像素的 DM 相比的要求。代码可在此 https URL 中找到。

评论:CVPR 2022
科目:计算机视觉和模式识别(cs.简历)
引用为:arXiv:2112.10752 [cs.简历]
 (或 arXiv:2112.10752v2 [cs.CV]对于此版本)
 https://doi.org/10.48550/arXiv.2112.10752专注以了解更多信息

CompVis/stable-diffusion · Hugging Face


已发布

分类

来自

标签:

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注