文章链接:项目链接:
亮点直击
总结速览
解决的问题
传统的文本到图像(T2I)扩散模型在生成高质量图像方面有了显著进展,但仍难以精细控制特定的视觉概念。现有方法虽然可以通过学习参考图像来复制给定的概念,但在个体组件的细粒度自定义方面存在局限性。这种细粒度的控制受限于语义污染(不需要的视觉元素会干扰个性化概念)和语义不平衡(概念与组件之间的学习不均衡)两个主要挑战。
提出的方案
为了解决这些问题,提出了“组件可控个性化”的新任务,并设计了创新框架MagicTailor。MagicTailor通过 动态掩码退化(DM-Deg) 动态干扰不需要的视觉语义,同时使用 双流平衡(DS-Bal) 建立了平衡的学习方式,从而实现对目标视觉语义的精细控制。
应用的技术
达到的效果
通过广泛的对比实验、消融分析和性能分析,MagicTailor在组件可控的个性化任务上表现优异,展示出显著的实用潜力,为更细致和富有创造力的图像生成铺平了道路。
组件可控的个性化
组件可控个性化的挑战
MagicTailorPipeline
MagicTailor 使用参考图像作为输入,通过低秩自适应 (LoRA) 微调 T2I 扩散模型,以学习目标概念和组件,从而能够生成将组件无缝集成到概念中的图像。
本文引入了动态掩码退化(DM-Deg),这是一种动态干扰不需要的视觉语义的新技术。这种方法有助于抑制模型对不相关视觉细节的敏感性,同时保留整体视觉上下文,从而有效减轻语义污染。
此外,采用双流平衡(DS-Bal),一种旨在平衡视觉语义学习的双流学习范式,来解决语义不平衡的问题。在线去噪 U-Net 执行样本最小-最大优化,而动量去噪 U-Net 应用选择性保留正则化,确保更忠实的个性化。
算法总览
动态mask退化
在此任务中,主要挑战之一是语义污染,其中不需要的视觉语义可能被 T2I 模型感知,从而“污染”个性化概念。如图 2(a.i) 所示,目标概念(即人)可能会受到目标组件的所有者(即眼睛)的严重干扰,导致生成混合的人物。不幸的是,直接遮蔽目标概念和组件以外的区域会破坏整体视觉上下文,从而导致过拟合和奇怪的组合,如图 2(a.ii) 所示。因此,参考图像中不需要的视觉语义应当妥善处理。因此,我们提出了动态掩膜降解(Dynamic Masked Degradation,DM-Deg),旨在动态扰动不需要的视觉语义(见图 3),以抑制 T2I 模型对这些语义的感知,同时保持整体视觉上下文(见图 2(a.iii))。
双流平衡
在此任务中,另一个主要挑战是语义不平衡,这源于目标概念与组件之间固有的视觉语义差异。一般而言,一个概念的视觉语义通常比组件更为丰富(例如,人物与头发),而在某些情况下,组件的语义丰富性可能大于概念(例如,简单的塔与复杂的屋顶)。这种不平衡使得联合学习过程变得复杂,可能会过度强调概念或组件中的某一方,导致生成的不连贯性(见图 5(a))。为了解决这一挑战,设计了双流平衡(Dual-Stream Balancing,DS-Bal),建立了一种在线和动量去噪 U-Net 的双流学习范式(见图 3),以平衡概念和组件的视觉语义学习,从而提高个性化的保真度(见图 5(b))。
定性结果
展示了由 MagicTailor 生成的图像以及针对各个领域的个性化的 SOTA 方法。 MagicTailor 总体上实现了良好的文本对齐、强大的身份保真度和高生成质量。
定量结果
将 MagicTailor 与基于自动指标(CLIP-T、CLIP-I、DINO 和 DreamSim)和用户研究(人类对文本对齐、身份保真度和生成质量的偏好)的 SOTA 个性化方法进行比较。最佳结果以粗体标记。
MagicTailor 可以在这项具有挑战性的任务中取得卓越的性能。
结论
本文引入了组件可控个性化这一新任务,允许在个性化概念中精确定制各个组件。解决了使该任务特别困难的两个主要挑战:语义污染(不需要的视觉元素破坏概念的完整性)和语义不平衡(导致视觉语义学习过程偏差)。为应对这些挑战,提出了 MagicTailor 这一创新框架,包含动态掩码退化(DM-Deg)以缓解不需要的视觉语义影响,以及双流平衡(DS-Bal)以确保视觉组件的平衡学习。全面实验表明,MagicTailor不仅在这一具有挑战性的任务中树立了新的基准,还为广泛的创意应用开辟了令人兴奋的可能性。展望未来,设想将该方法扩展至图像和视频生成的其他领域,探索如何识别、控制和操控多层次视觉语义,以实现更复杂和富有想象力的生成能力。
原文链接:
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载者并注明出处:https://jmbhsh.com/qitabaihuo/32896.html