LatentDiffusion模型论文

[2112.10752] 使用潜在扩散模型进行高分辨率图像合成 (arxiv.org)

[提交于 20 年 2021 月 1 日（v13），最后修订于 2022 年 2 月 <> 日（此版本，v<>）]

基于潜在扩散模型的高分辨率图像合成

罗宾·隆巴赫、安德烈亚斯·布拉特曼、多米尼克·洛伦茨、帕特里克·埃瑟、比约恩·奥默

通过将图像形成过程分解为顺序应用降噪自动编码器、扩散模型（DM）实现最先进的技术图像数据及其他方面的合成结果。此外，它们的配方允许使用引导机制来控制图像生成过程，而无需培训。但是，由于这些模型通常直接以像素为单位运行空间，强大的DM的优化通常需要消耗数百天的GPU和由于顺序评估，推理成本很高。启用 DM 训练有限的计算资源，同时保持其质量和灵活性，我们将它们应用于强大的预训练自动编码器的潜在空间中。在与以前的工作相比，在这种表示上训练扩散模型允许首次达到复杂度之间的接近最佳点减少和细节保留，大大提高视觉保真度。由在模型架构中引入交叉关注层，我们转向将模型扩散到强大而灵活的发生器中，用于一般调节文本或边界框等输入以及高分辨率合成变为可能以卷积方式。我们的潜扩散模型（LDM）可实现图像修复和极具竞争力的性能的新技术水平各种任务，包括无条件图像生成、语义场景合成和超分辨率，同时显著减少计算与基于像素的 DM 相比的要求。代码可在此 https URL 中找到。

评论：	CVPR 2022
科目：	计算机视觉和模式识别（cs.简历）
引用为：	arXiv：2112.10752 [cs.简历]
	（或 arXiv：2112.10752v2 [cs.CV]对于此版本）
	https://doi.org/10.48550/arXiv.2112.10752专注以了解更多信息

CompVis/stable-diffusion · Hugging Face

已发布

2023年5月9日

分类

来自

song

标签：

AI Times –AI 时代，中年人倔强的记录

LatentDiffusion模型论文

基于潜在扩散模型的高分辨率图像合成

评论

发表回复取消回复

LatentDiffusion模型论文

基于潜在扩散模型的高分辨率图像合成

评论

发表回复 取消回复

发表回复取消回复