突破个性化图像生成局限！MagicTailor 组件可控个性化图像生成创新框架！

文章链接：项目链接：

亮点直击

总结速览

解决的问题

传统的文本到图像(T2I)扩散模型在生成高质量图像方面有了显著进展，但仍难以精细控制特定的视觉概念。现有方法虽然可以通过学习参考图像来复制给定的概念，但在个体组件的细粒度自定义方面存在局限性。这种细粒度的控制受限于语义污染（不需要的视觉元素会干扰个性化概念）和语义不平衡（概念与组件之间的学习不均衡）两个主要挑战。

提出的方案

为了解决这些问题，提出了“组件可控个性化”的新任务，并设计了创新框架MagicTailor。MagicTailor通过 动态掩码退化（DM-Deg） 动态干扰不需要的视觉语义，同时使用 双流平衡（DS-Bal） 建立了平衡的学习方式，从而实现对目标视觉语义的精细控制。

应用的技术

达到的效果

通过广泛的对比实验、消融分析和性能分析，MagicTailor在组件可控的个性化任务上表现优异，展示出显著的实用潜力，为更细致和富有创造力的图像生成铺平了道路。

组件可控的个性化

组件可控个性化的挑战

MagicTailorPipeline

MagicTailor 使用参考图像作为输入，通过低秩自适应 (LoRA) 微调 T2I 扩散模型，以学习目标概念和组件，从而能够生成将组件无缝集成到概念中的图像。

本文引入了动态掩码退化（DM-Deg），这是一种动态干扰不需要的视觉语义的新技术。这种方法有助于抑制模型对不相关视觉细节的敏感性，同时保留整体视觉上下文，从而有效减轻语义污染。

此外，采用双流平衡（DS-Bal），一种旨在平衡视觉语义学习的双流学习范式，来解决语义不平衡的问题。在线去噪 U-Net 执行样本最小-最大优化，而动量去噪 U-Net 应用选择性保留正则化，确保更忠实的个性化。

算法总览

动态mask退化

在此任务中，主要挑战之一是语义污染，其中不需要的视觉语义可能被 T2I 模型感知，从而“污染”个性化概念。如图 2(a.i) 所示，目标概念（即人）可能会受到目标组件的所有者（即眼睛）的严重干扰，导致生成混合的人物。不幸的是，直接遮蔽目标概念和组件以外的区域会破坏整体视觉上下文，从而导致过拟合和奇怪的组合，如图 2(a.ii) 所示。因此，参考图像中不需要的视觉语义应当妥善处理。因此，我们提出了动态掩膜降解（Dynamic Masked Degradation，DM-Deg），旨在动态扰动不需要的视觉语义（见图 3），以抑制 T2I 模型对这些语义的感知，同时保持整体视觉上下文（见图 2(a.iii)）。

双流平衡

在此任务中，另一个主要挑战是语义不平衡，这源于目标概念与组件之间固有的视觉语义差异。一般而言，一个概念的视觉语义通常比组件更为丰富（例如，人物与头发），而在某些情况下，组件的语义丰富性可能大于概念（例如，简单的塔与复杂的屋顶）。这种不平衡使得联合学习过程变得复杂，可能会过度强调概念或组件中的某一方，导致生成的不连贯性（见图 5(a)）。为了解决这一挑战，设计了双流平衡（Dual-Stream Balancing，DS-Bal），建立了一种在线和动量去噪 U-Net 的双流学习范式（见图 3），以平衡概念和组件的视觉语义学习，从而提高个性化的保真度（见图 5(b)）。

定性结果

展示了由 MagicTailor 生成的图像以及针对各个领域的个性化的 SOTA 方法。 MagicTailor 总体上实现了良好的文本对齐、强大的身份保真度和高生成质量。

定量结果

将 MagicTailor 与基于自动指标（CLIP-T、CLIP-I、DINO 和 DreamSim）和用户研究（人类对文本对齐、身份保真度和生成质量的偏好）的 SOTA 个性化方法进行比较。最佳结果以粗体标记。

MagicTailor 可以在这项具有挑战性的任务中取得卓越的性能。

结论

本文引入了组件可控个性化这一新任务，允许在个性化概念中精确定制各个组件。解决了使该任务特别困难的两个主要挑战：语义污染（不需要的视觉元素破坏概念的完整性）和语义不平衡（导致视觉语义学习过程偏差）。为应对这些挑战，提出了 MagicTailor 这一创新框架，包含动态掩码退化（DM-Deg）以缓解不需要的视觉语义影响，以及双流平衡（DS-Bal）以确保视觉组件的平衡学习。全面实验表明，MagicTailor不仅在这一具有挑战性的任务中树立了新的基准，还为广泛的创意应用开辟了令人兴奋的可能性。展望未来，设想将该方法扩展至图像和视频生成的其他领域，探索如何识别、控制和操控多层次视觉语义，以实现更复杂和富有想象力的生成能力。

原文链接:

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载者并注明出处：https://jmbhsh.com/qitabaihuo/32896.html