原创 新智元
https://mp.weixin.qq.com/s/cDLQds50cX_9Ni_TKA1JaQ
AI生图格局大震!Stable Diffusion 3开源倒计时,2B单机可跑碾压闭源Midjourney
【新智元导读】重磅消息!Stable Diffusion 3,大概率会在明天开源。距离2月SD3的横空出世,已经过去了4个月。如果此事为真,生图圈子第一个出现开源碾压闭源的奇景!强大的MMDiT全新架构,将彻底改变AI生图的格局。现在,全体AI社区都在翘首以盼。
论文地址:https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf
用kimi做了下解读如下:
文件1:Emu模型论文 (arXiv:2309.15807)
- 标题: Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack
- 作者: Xiaoliang Dai, Ji Hou, 等来自Meta的GenAI团队。
- 核心内容:
- 提出了一种名为Emu的图像生成模型,该模型通过“质量调整”(quality-tuning)技术显著提高了生成图像的美学质量。
- Emu模型在1.1亿图像-文本对上预训练,然后仅用几千张精选的高质量图像进行微调,以提高视觉吸引力。
- 在与预训练模型和SDXLv1.0模型的比较中,Emu在视觉吸引力方面取得了更高的偏好率。
- 论文还展示了质量调整对于其他架构(如像素扩散和掩蔽生成变换器模型)也是有效的。
文件2:Stable Diffusion 3论文 (Stable+Diffusion+3+Paper.pdf)
- 标题: Scaling Rectified Flow Transformers for High-Resolution Image Synthesis
- 作者: Patrick Esser, Sumith Kulal, 等来自Stability AI。
- 核心内容:
- 介绍了一种新型的生成模型——Rectified Flow,该模型通过直线连接数据和噪声,具有更好的理论属性和概念简单性。
- 通过大规模研究,展示了这种方法在高分辨率文本到图像合成方面的优越性能。
- 提出了一种新颖的基于Transformer的架构,用于文本到图像的生成,该架构使用不同的权重处理图像和文本token,允许图像和文本token之间的双向信息流。
- 展示了该架构的可预测扩展趋势,并且较低的验证损失与通过各种指标和人类评估改善的文本到图像合成强相关。
- 他们的最大型模型在定量评估和人类偏好评级方面超越了现有的最先进模型。
发表回复