木桶原理 CLIP系列模型如何补短板再升级告别

CLIP（Contrastive Language–Image Pre-training）模型自推出以来，在图像-文本跨模态理解和生成领域取得了显著成果。然而，经典模型CLIP还是存在许多短板，对此，学界对CLIP模型的改造与增强还在持续进行中，希望通过改造CLIP模型架构、添加某些模块来弥补CLIP的能力短板， 不断提升其在跨模态、少样本任务中的泛化性能与适用性 。具体如下：

本期推送再次盘点了CLIP模型架构还能如何改造，让我们一起来看看吧！

GroupViT: 从文本监督中实现语义分割

文章介绍了一个名为 GroupViT（Grouping Vision Transformer）的模型 ，它是为了实现仅通过文本监督进行语义分割的任务而设计的。GroupViT通过一个 分层的Transformer架构 进行视觉概念的逐步分组，从较小的图像片段合并成较大的任意形状的语义段。GroupViT首先将输入图像划分为多个不重叠的小patch，并将每个patch线性投影到潜在空间，形成输入的image token。在 每个分组阶段 ，image token和group token通过Transformer层进行信息传播，通过自注意力机制(self-attention)聚合全局信息。每个分组阶段的末尾都有一个 grouping block ，负责将相似的image token合并为更大的语义段(segment)。Grouping block通过计算group token和segment token之间的相似性矩阵来实现合并。在Grouping Block中，使用Gumbel-Softmax操作和直通技巧（straight through trick）来进行硬分配，使得segment tokens能够明确地分配给不同的group tokens。为了训练GroupViT执行分层分组，模型采用了特别设计的对比损失函数，包括原始的图像-文本对比损失和 多标签对比损失 。

相对于CLIP，GroupViT引入了 分组机制 ，允许模型自动地将图像区域分组为语义段，而CLIP是一个基于对比学习的模型，主要用于图像和文本的联合表示学习，并没有显式的分组机制。GroupViT还采用了 分层的Transformer架构 ，能够处理任意形状的图像段，而CLIP通常处理的是固定大小的图像patch。此外，GroupViT特有的 Grouping Block模块 ，用于将图像tokens合并为更大的语义段。最后，GroupViT使用了 多标签对比损失 ，通过从文本中提取名词并使用句子模板生成额外的文本标签，增强了模型对视觉分组的学习能力。

FFF：在对比性预训练中修复有缺陷的基础产生的视觉语言模型

文章提出了一种改进的对比性预训练方法，称为FFF（Fixing Flawed Foundations），旨在通过解决现有视觉-语言模型训练中的两个关键问题来增强模型性能： 错误分配的负对（false negative pairs）和低质量及多样性不足的字幕（captions） 。

文章展示了FFF方法在图像识别（在11个数据集上平均提高了约6%）和图像检索（在Flickr30k上提高了约19%，在MSCOCO上提高了约15%）方面的显著性能提升。总之，FFF方法通过解决负对分配错误和提升字幕质量与多样性，显著提高了视觉-语言模型的预训练效果，并通过使用sigmoid loss作为训练损失函数，有效地利用了多个正对进行训练。

DreamLIP：带有长字幕的语言图像预训练

文章提出的DreamLIP模型实现了 从长标题中动态采样子标题，并与图像的局部区域进行细粒度对齐 。

在多种下游任务上进行实验，包括图像-文本检索、语义分割等，证明了DreamLIP模型相较于现有方法在细粒度表示能力上的一致优越性。通过这种方法，DreamLIP能够充分利用长标题中的信息，提高模型对图像内容的理解和表示能力，尤其是在零样本学习的场景下，展现出了强大的性能。

DIVA：扩散反馈帮助 CLIP 看得更清楚

对比语言-图像预训练（CLIP）擅长跨领域和模态抽象开放世界表示，已成为各种视觉和多模态任务的基础。然而，最近的研究表明， CLIP存在严重的视觉缺陷，例如几乎无法区分方向、数量、颜色、结构等 。这些视觉缺陷也限制了基于 CLIP 构建的多模态大型语言模型（MLLM）的感知能力。主要原因可能是用于训练 CLIP 的图像-文本对具有固有的偏见，因为缺乏文本的独特性和图像的多样性。这项工作提出了一种简单的CLIP模型后训练方法， 该方法通过自监督扩散过程在很大程度上克服了其视觉缺陷。 我们介绍了 DIVA，它使用 DIffusion 模型作为 CLIP 的视觉助手。具体来说， DIVA利用来自文本到图像扩散模型的生成反馈来优化CLIP的表征 ，仅使用图像（没有相应的文本），从而实现了 自监督学习 。

通过在MMVP-VLM基准测试上的实验，DIVA显著提升了CLIP模型在细粒度视觉能力上的表现，并在多模态理解和分割任务上提高了MLLMs和视觉模型的性能。总的来说， DIVA模型通过一个简单而有效的自监督框架，使用扩散模型的生成反馈来优化CLIP的视觉表示，使其在视觉细节的感知上有了显著的提升，同时保留了CLIP的原有优势。

CLIP-FSAR：小样本动作识别的原型调制方法

本文的目标是迁移CLIP强大的多模态知识，以解决由于数据稀缺而导致的原型估计不准确的问题，这是 少样本动作识别 （Few-shot Action Recognition, FSAR）中一个关键问题。文章提出了一种名为的原型调制框架，该框架由两个关键组件组成： 视频-文本对比物镜（Video-text Contrastive Objective）和原型调制（Prototype Modulation） 。

CLIP-FSAR框架通过这两个组件的协同工作，能够充分利用CLIP模型中的丰富语义信息，生成可靠原型，并在少样本分类任务中实现精确分类。通过视频-文本对比物镜，CLIP-FSAR适应于视频任务，并通过原型调制增强了对视频中动作类别的识别能力。

MA-CLIP：CLIP的多模态自适应用于小样本动作识别

将大规模预训练的视觉模型（如 CLIP）应用于小样本动作识别任务可以提高性能和效率。利用“预训练，微调”范式可以避免从头开始训练网络，这可能既耗时又耗费资源。但是，这种方法有两个缺点。首先，用于小样本动作识别的标记样本有限，因此 需要尽量减少可调参数的数量以减轻过拟合 ，这也会导致微调不足，从而增加资源消耗并可能破坏模型的广义表示。其次， 视频的超时域维度挑战了小样本识别的有效时间建模 ，而预训练的视觉模型通常是图像模型。为了解决这些问题，本文提出了一种名为 CLIP多模态适应 （, Multimodal Adaptation of CLIP）的新方法。

MA-CLIP设计为可以与任何不同的小样本动作识别时间对齐度量（如视频匹配器）一起使用，这增加了模型的通用性和灵活性。由于适配器的轻量级特性和参数数量的减少，MA-CLIP在训练时更加快速和高效，同时降低了训练成本。总的来说，MA-CLIP通过精心设计的适配器和文本引导的原型构建模块，有效地结合了视觉和语言信息，提高了小样本动作识别的性能，同时保持了模型的快速适应性和低训练成本。

APE：并非所有特征都重要：通过自适应先验优化增强CLIP的少样本泛化能力

现有的CLIP少样本泛化方法要么表现出有限的性能，要么存在过多的可学习参数。本文提出了 APE（Adaptive Prior rEﬁnement），这是一种为CLIP模型的预训练知识进行适应性细化的方法，旨在提高CLIP在下游任务中的性能，特别是在小样本学习场景下。

APE和APE-T在保持高计算效率的同时，实现了在多个基准测试中的最先进性能，特别是在16次拍摄的ImageNet分类任务中，APE和APE-T分别以少于第二佳方法+1.59%和+1.99%的平均准确率，并且具有×30更少的可学习参数。

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载者并注明出处：https://www.jmbhsh.com/shipinzhuangshi/35991.html

木桶原理 CLIP系列模型如何补短板再升级 告别