CLIP(Contrastive Language–Image Pre-training)模型自推出以来,在图像-文本跨模态理解和生成领域取得了显著成果。然而,经典模型CLIP还是存在许多短板,对此,学界对CLIP模型的改造与增强还在持续进行中,希望通过改造CLIP模型架构、添加某些模块来弥补CLIP的能力短板, 不断提升其在跨模态、少样本任务中的泛化性能与适用性 。具体如下:
本期推送再次盘点了CLIP模型架构还能如何改造,让我们一起来看看吧!
GroupViT: 从文本监督中实现语义分割
文章介绍了一个名为 GroupViT(Grouping Vision Transformer)的模型 ,它是为了实现仅通过文本监督进行语义分割的任务而设计的。GroupViT通过一个 分层的Transformer架构 进行视觉概念的逐步分组,从较小的图像片段合并成较大的任意形状的语义段。GroupViT首先将输入图像划分为多个不重叠的小patch,并将每个patch线性投影到潜在空间,形成输入的image token。在 每个分组阶段 ,image token和group token通过Transformer层进行信息传播,通过自注意力机制(self-attention)聚合全局信息。每个分组阶段的末尾都有一个 grouping block ,负责将相似的image token合并为更大的语义段(segment)。Grouping block通过计算group token和segment token之间的相似性矩阵来实现合并。在Grouping Block中,使用Gumbel-Softmax操作和直通技巧(straight through trick)来进行硬分配,使得segment tokens能够明确地分配给不同的group tokens。为了训练GroupViT执行分层分组,模型采用了特别设计的对比损失函数,包括原始的图像-文本对比损失和 多标签对比损失 。
相对于CLIP,GroupViT引入了 分组机制 ,允许模型自动地将图像区域分组为语义段,而CLIP是一个基于对比学习的模型,主要用于图像和文本的联合表示学习,并没有显式的分组机制。GroupViT还采用了 分层的Transformer架构 ,能够处理任意形状的图像段,而CLIP通常处理的是固定大小的图像patch。此外,GroupViT特有的 Grouping Block模块 ,用于将图像tokens合并为更大的语义段。最后,GroupViT使用了 多标签对比损失 ,通过从文本中提取名词并使用句子模板生成额外的文本标签,增强了模型对视觉分组的学习能力。
FFF:在对比性预训练中修复有缺陷的基础产生的视觉语言模型
文章提出了一种改进的对比性预训练方法,称为FFF(Fixing Flawed Foundations),旨在通过解决现有视觉-语言模型训练中的两个关键问题来增强模型性能: 错误分配的负对(false negative pairs)和低质量及多样性不足的字幕(captions) 。
文章展示了FFF方法在图像识别(在11个数据集上平均提高了约6%)和图像检索(在Flickr30k上提高了约19%,在MSCOCO上提高了约15%)方面的显著性能提升。总之,FFF方法通过解决负对分配错误和提升字幕质量与多样性,显著提高了视觉-语言模型的预训练效果,并通过使用sigmoid loss作为训练损失函数,有效地利用了多个正对进行训练。
DreamLIP:带有长字幕的语言图像预训练
文章提出的DreamLIP模型实现了 从长标题中动态采样子标题,并与图像的局部区域进行细粒度对齐 。
在多种下游任务上进行实验,包括图像-文本检索、语义分割等,证明了DreamLIP模型相较于现有方法在细粒度表示能力上的一致优越性。通过这种方法,DreamLIP能够充分利用长标题中的信息,提高模型对图像内容的理解和表示能力,尤其是在零样本学习的场景下,展现出了强大的性能。
DIVA:扩散反馈帮助 CLIP 看得更清楚
对比语言-图像预训练 (CLIP) 擅长跨领域和模态抽象开放世界表示,已成为各种视觉和多模态任务的基础。然而,最近的研究表明, CLIP存在严重的视觉缺陷,例如几乎无法区分方向、数量、颜色、结构等 。这些视觉缺陷也限制了基于 CLIP 构建的多模态大型语言模型 (MLLM) 的感知能力。主要原因可能是用于训练 CLIP 的图像-文本对具有固有的偏见,因为缺乏文本的独特性和图像的多样性。这项工作提出了一种简单的CLIP模型后训练方法, 该方法通过自监督扩散过程在很大程度上克服了其视觉缺陷。 我们介绍了 DIVA,它使用 DIffusion 模型作为 CLIP 的视觉助手。具体来说, DIVA利用来自文本到图像扩散模型的生成反馈来优化CLIP的表征 ,仅使用图像(没有相应的文本),从而实现了 自监督学习 。
通过在MMVP-VLM基准测试上的实验,DIVA显著提升了CLIP模型在细粒度视觉能力上的表现,并在多模态理解和分割任务上提高了MLLMs和视觉模型的性能。总的来说, DIVA模型通过一个简单而有效的自监督框架,使用扩散模型的生成反馈来优化CLIP的视觉表示,使其在视觉细节的感知上有了显著的提升,同时保留了CLIP的原有优势。
CLIP-FSAR:小样本动作识别的原型调制方法
本文的目标是迁移CLIP强大的多模态知识,以解决由于数据稀缺而导致的原型估计不准确的问题,这是 少样本动作识别 (Few-shot Action Recognition, FSAR)中一个关键问题。文章提出了一种名为的原型调制框架,该框架由两个关键组件组成: 视频-文本对比物镜(Video-text Contrastive Objective)和原型调制(Prototype Modulation) 。
CLIP-FSAR框架通过这两个组件的协同工作,能够充分利用CLIP模型中的丰富语义信息,生成可靠原型,并在少样本分类任务中实现精确分类。通过视频-文本对比物镜,CLIP-FSAR适应于视频任务,并通过原型调制增强了对视频中动作类别的识别能力。
MA-CLIP:CLIP的多模态自适应用于小样本动作识别
将大规模预训练的视觉模型(如 CLIP)应用于小样本动作识别任务可以提高性能和效率。利用“预训练,微调”范式可以避免从头开始训练网络,这可能既耗时又耗费资源。但是,这种方法有两个缺点。首先,用于小样本动作识别的标记样本有限,因此 需要尽量减少可调参数的数量以减轻过拟合 ,这也会导致微调不足,从而增加资源消耗并可能破坏模型的广义表示。其次, 视频的超时域维度挑战了小样本识别的有效时间建模 ,而预训练的视觉模型通常是图像模型。为了解决这些问题,本文提出了一种名为 CLIP多模态适应 (, Multimodal Adaptation of CLIP)的新方法。
MA-CLIP设计为可以与任何不同的小样本动作识别时间对齐度量(如视频匹配器)一起使用,这增加了模型的通用性和灵活性。由于适配器的轻量级特性和参数数量的减少,MA-CLIP在训练时更加快速和高效,同时降低了训练成本。总的来说,MA-CLIP通过精心设计的适配器和文本引导的原型构建模块,有效地结合了视觉和语言信息,提高了小样本动作识别的性能,同时保持了模型的快速适应性和低训练成本。
APE:并非所有特征都重要:通过自适应先验优化增强CLIP的少样本泛化能力
现有的CLIP少样本泛化方法要么表现出有限的性能,要么存在过多的可学习参数。本文提出了 APE(Adaptive Prior rEfinement),这是一种为CLIP模型的预训练知识进行适应性细化的方法,旨在提高CLIP在下游任务中的性能,特别是在小样本学习场景下。
APE和APE-T在保持高计算效率的同时,实现了在多个基准测试中的最先进性能,特别是在16次拍摄的ImageNet分类任务中,APE和APE-T分别以少于第二佳方法+1.59%和+1.99%的平均准确率,并且具有×30更少的可学习参数。
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载者并注明出处:https://jmbhsh.com/shipinzhuangshi/35991.html