文章链接:模型链接:在线Demo链接:
亮点直击 :
惊艳的效果先睹为快
总结速览
解决的问题 :当前的扩散模型(如Stable Diffusion)在视觉生成上取得了重大进展,但其生成范式与自回归语言模型有本质区别,导致统一语言-视觉模型的开发变得复杂。此外,像LlamaGen这样基于离散VQVAE tokens进行自回归图像生成的方法效率低下,处理大量tokens需要较长时间。
提出的方案 :本文提出了Meissonic,一种提升非自回归掩码图像建模(MIM)的文本到图像生成模型。通过采用全面的架构创新、先进的位置编码策略以及优化的采样条件,Meissonic显著提高了MIM的性能和效率。
应用的技术 :
达到的效果 :Meissonic模型在生成高质量、高分辨率图像时,不仅达到了SDXL等现有扩散模型的水平,甚至在某些方面有所超越。模型能够生成1024×1024分辨率的图像,实验结果证明其在文本到图像合成领域的潜力。
方法
动机
近期文本生成图像的突破主要得益于扩散模型,如Stable Diffusion XL,在图像质量、细节和概念一致性方面设立了事实标准。然而,这些模型与自回归语言模型的工作方式显著不同,导致在视觉和语言任务上实现统一方法面临挑战。这种差异不仅使这些模态的整合变得复杂,还凸显了需要创新的方法来弥合它们之间的差距。特别是,非自回归的 Masked Image Modeling(MIM)技术,例如MaskGIT和MUSE,展现了高效图像生成的潜力。尽管MIM方法具有一定的前景,它们仍面临两个关键限制:
(a) 分辨率限制 。当前的MIM方法只能生成最大分辨率为512×512像素的图像。这一限制阻碍了它们的广泛应用和进一步发展,尤其是在文本生成图像的社区中,1024×1024分辨率逐渐成为标准。
(b) 性能差距 。现有的MIM技术尚未达到领先扩散模型如SDXL所表现的性能水平,特别是在图像质量、复杂细节和概念表达等关键领域表现不佳,而这些对实际应用至关重要。
这些挑战需要探索新的方法。本文的目标是使MIM能够高效生成高分辨率图像(如1024×1024),同时缩小与顶级扩散模型的差距,并确保其计算效率适合消费级硬件。通过Meissonic,希望推动MIM方法的边界,并将其带到文本生成图像领域的前沿。
模型架构
下图2展示了Meissonic模型的整体结构。通过一个集成框架促进高效的高性能文本生成图像,该框架包括一个CLIP文本编码器、一个向量量化(VQ)图像编码器和解码器以及一个多模态Transformer骨干网。下图2展示了模型的整体结构。
灵活且高效的文本编码器 。与使用T5-XXL或LLaMa等大型语言模型编码器不同,本模型使用来自最先进的CLIP模型的单一文本编码器,具有1024的潜在维度,并进行微调以优化T2I(文本生成图像)性能。尽管这一决定可能限制模型完全理解较长文本提示的能力,但观察表明,排除像T5这样的大规模文本编码器并不会降低图像的视觉质量。此外,这种方法显著减少了GPU内存需求和计算成本。值得注意的是,离线提取T5特征大约需要11倍的处理时间和6倍的存储空间,而采用CLIP文本编码器进一步体现了本文设计的高效性。
多模态Transformer骨干网络用于 Masked Image Modeling 。本文的Transformer架构基于多模态Transformer框架,结合了采样参数r来编码采样参数,并使用Rotary Position Embeddings(RoPE)进行空间信息编码。引入了特征压缩层,以高效处理包含大量离散标记的高分辨率生成任务。这些层将嵌入特征从64×64压缩到32×32后再通过Transformer处理,随后通过特征解压缩层恢复到64×64,从而减轻计算负担。为增强训练的稳定性并减轻NaN损失问题,遵循LLaMa的训练策略,在分布式训练过程中实现梯度裁剪和检查点重载,并将QK-Norm层集成到架构中。
多样化微条件 。为了增强生成性能,引入了其他条件,例如原始图像分辨率、裁剪坐标和人类偏好评分。这些条件被转换为正弦嵌入,并作为额外的通道与文本编码器的最终池化隐藏状态连接。
Masking策略 。采用Chang et al.(2023)提出的方法,使用带余弦调度的可变masking比率。从一个截断的反余弦分布中随机采样遮掩比率,其密度函数如下:
多模态Transformer用于 Masked Image Modeling
Meissonic采用多模态Transformer作为其基础架构,并通过创新定制模块来应对高分辨率 Masked Image Modeling中的独特挑战。为 Masked Image Modeling引入了以下几项专门设计:
训练细节
Meissonic 的构建使用了 CLIP-ViT-H-142 文本编码器 、 预训练的 VQ 图像编码器和解码器 ,以及定制的 基于 Transformer 的骨干网络 。模型采用 无分类器指导(CFG) 和交叉熵损失进行训练。训练过程分为三个分辨率阶段,利用公共数据集和整理的数据。
训练阶段:
训练过程具有资源效率。与 Stable Diffusion 相比,Meissonic 的训练资源效率显著更高,约需 48 个 H100 GPU 天 ,表明可以以显著降低的计算成本开发出具备生产能力的图像合成基础模型。关于这一比较的更多细节见下表 1。
逐步高效的训练阶段分解
本文的方法系统地将训练过程分解为四个精心设计的阶段,能够逐步构建和完善模型的生成能力。这些阶段结合对特定组件的精确增强,有助于合成质量的持续改善。鉴于SDXL未披露其训练数据的详细信息,我们的经验对指导社区构建SDXL级别的文本到图像模型尤为重要。
第一阶段:从大量数据中理解基本概念 先前的研究表明,LAION 的原始标题对于训练文本到图像模型是不够的,通常需要 MLLMs(如 LLaVA)提供的标题精炼。然而,这一解决方案计算资源需求高且耗时。虽然一些研究利用了大量注释的 SA-10M数据集,但发现,SA-10M 并没有全面覆盖基本概念,尤其是关于人脸的概念。因此,采用了一种平衡策略,利用原始高质量 LAION 数据进行基础概念学习,使用较低的分辨率以提高效率。具体而言,我们通过过滤掉美学评分低于 4.5、带水印概率超过 50% 的图像,以及 Kolors 中列出的其他标准,精心策划了去重后的 LAION-2B 数据集。这一细致选择产生了大约 2 亿张图像,在这一初始阶段以的分辨率用于训练。
第二阶段:使用长提示对齐文本与图像 在第一阶段,本文的方法并未依赖高质量的图像-文本配对数据。因此,在第二阶段,我们专注于提高模型解读长而详细的提示的能力。我们对初始 LAION 数据集进行了更严格的过滤,仅保留美学评分高于 8 的图像,以及 Kolors(2024)中列出的其他标准。此外,本文还纳入了 120 万个合成图像-文本对,配有超过 50 字的精炼标题,这些数据主要来自公开可用的高质量合成数据集,并补充了我们内部 600 万数据集中其他高质量图像。此汇总结果大约形成了 1000 万个图像-文本对。值得注意的是,保持模型架构不变,同时将训练分辨率提高至,使模型能够捕捉到更复杂的图像细节。观察到,模型捕捉抽象概念和准确响应复杂提示的能力显著提升,包括多样的风格和幻想角色。
第三阶段:掌握特征压缩以实现高分辨率生成 高分辨率生成仍然是 MIM 中的一个未被充分探索的领域。与依赖外部超分辨率(SR)模块的方法(如 MUSE 或 DeepFloyd-XL )不同,展示了通过特征压缩实现高效的生成是可行的。通过引入特征压缩层,我们实现了从到生成的无缝过渡,且计算成本极低。在这一阶段,我们进一步通过基于分辨率和美学评分进行过滤,选择了约 10 万个高质量、高分辨率的图像-文本对,这些数据来自第二阶段使用的 LAION 子集。结合剩余的高质量数据,训练样本总数约为 600 万个,以分辨率进行训练。
第四阶段:细化高分辨率美学图像生成 在最后阶段,我们使用小学习率对模型进行微调,而不冻结文本编码器,并将人类偏好分数作为微观条件。这可以显著提升模型在高分辨率图像生成中的表现。这一针对性的调整显著增强了模型生成高分辨率图像的能力,同时提高了多样性。训练数据与第三阶段相同。
结果
定量比较
传统的图像生成模型评估指标,如 FID 和 CLIP Score,对视觉美学的相关性有限,正如 Podell et al.(2024)、Chen et al.(2024)、Kolors(2024)和 Sehwag et al.(2024)所强调的。因此,使用人类偏好分数版本 2(HPSv2)、GenEval和多维人类偏好分数(MPS)来报告本文模型的性能,具体数据见下表 2、3 和 6。
在让 Meissonic 更加易于公众访问的过程中,本文优化了模型至 10 亿个参数,确保其能够高效运行于 8GB VRAM 上,使得推理和微调都变得方便。下图 4 提供了不同推理批次大小与 SDXL 之间的 GPU 内存消耗比较分析。下图 5 详细说明了每一步的推理时间。
上图 5 展示了 Meissonic 在生成文本驱动风格艺术图像方面的能力。下图3展示了图像质量和文本-图像对齐的定性比较。
为了补充这些分析,通过 K-Sort Arena 进行人类评估,并使用 GPT-4o 评估 Meissonic 与其他模型之间的性能,见上图 4。
所有图表显示,Meissonic 在人类性能和文本对齐方面与 DALL-E 2 和 SDXL 达成了具有竞争力的表现,同时展示了其效率。
zero-shot 图像编辑
对于图像编辑任务,使用 EMU-Edit 数据集对 Meissonic 进行基准测试,该数据集包括七种不同的操作:背景更改、综合图像更改、风格更改、对象移除、对象添加、局部修改,以及颜色/纹理更改。结果见下表 7。
此外,内部图像编辑数据集中的示例,包括下图 6 中的掩码引导编辑和下图 7 中的无mask编辑,进一步展示了 Meissonic 的多功能性。
值得注意的是,Meissonic 在没有针对图像编辑特定数据或指令数据集进行任何训练或微调的情况下,依然达到了这样的表现。
结论与影响
本文通过引入多个关键创新显著推进了用于文本到图像(T2I)合成的masked图像建模(MIM)。这些创新包括:结合多模态和单模态层的Transformer架构、先进的位置信息编码策略,以及作为采样条件的自适应masked率。这些创新,加上高质量的精选训练数据、渐进且高效的训练阶段分解、微条件和特征压缩层,共同造就了 Meissonic,这是一款拥有 10 亿参数的模型,能够在高分辨率和美观的图像生成上超越更大的扩散模型,同时保持在消费级 GPU 上的可访问性。评估表明,Meissonic 在性能和效率上均表现优越,标志着朝着可获取且高效的高分辨率非自回归 MIM T2I 模型迈出了重要一步。
更广泛的影响 :近期,离线文本到图像应用程序已在移动设备上出现,例如 Google Pixel 9 的 Pixel Studio 和 Apple iPhone 16 的 Image Playground。这些创新反映了增强用户体验和隐私的日益趋势。作为一款开创性的资源高效基础模型,Meissonic 代表了该领域的重要进展,提供了先进的图像合成能力,并强调用户隐私和离线功能。这一发展不仅赋予用户创意工具,同时确保了敏感数据的安全,标志着移动成像技术的显著跃进。
原文链接:
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载者并注明出处:https://www.jmbhsh.com/zixun/32898.html