Mistral 谷歌&amp AI发布TIPS 具有空间意识的文本

文章链接：

亮点直击

具有空间意识的文本图像预训练。TIPS是一种通用的图像-文本编码器模型，可有效用于密集和全局理解，用于纯视觉或视觉语言任务，整体应用流程见下图：

总结速览

解决的问题

现有的图像-文本表示学习模型通常缺乏空间意识，难以直接用于密集理解任务（例如深度估计、语义分割）。因此，许多密集视觉任务仍然依赖于图像的自监督预训练方法，尽管缺乏明确的监督信号。

提出的方案

提出了一种新颖的通用图像-文本模型，称为 TIPS（Text-Image Pretraining with Spatial awareness） ，通过加入空间意识来提升图像-文本学习的效果，使其能够在密集和全局视觉任务中直接应用。

应用的技术

达到的效果

基于上述策略，构建了基于Transformer的模型，使用公共图像数据集进行训练，实验证明该模型在8项任务和16个数据集上表现优异，具有强大的密集和全局理解的即插即用能力，并适用于多种图像-文本及仅图像的任务。

本文的目标是创建一个通用的图像表示模型，具备文本对齐功能，可即插即用地应用于密集和全局视觉任务。虽然图像-文本对比技术能够有效地建模全局图像信息，但在密集理解任务中表现欠佳，而自监督模型目前在这些任务中表现更优。为弥补这一差距，本文提出了具备空间感知的图像-文本预训练方法（TIPS），如下图2所示，通过合成图像描述增强弱监督，以及自监督掩码建模，显著提高了图像特征质量，适用于密集和全局理解。

使用合成图像描述增强弱监督

使用大规模网络数据进行标准图像-文本学习的一个限制在于描述质量，这些描述往往噪声较大，可能无法准确描述图像。如下图3（上）所示，“for sale dealership $30k”这一文本未描述图像内容。虽然这可能会影响模型学习，但描述仍捕捉到了主要物体。

然而观察到的一个更深层问题是，这些描述通常仅提到显著的物体，而未描述其在场景中的布局。换句话说，这些描述通常作为噪声的图像级监督，通常对学习具有空间感知的表示用处不大。这促使研究合成描述的自动生成，其可作为密集任务的有效预训练弱监督。

融合自蒸馏和掩码以增强图像特征

讨论。本文的方法基于弱监督和自监督学习的表示学习理念。据所知，这是首次将对比图文学习与自蒸馏和掩码图像建模结合，展示出在多个任务上的改进，表明这些目标间存在积极的协同作用。最接近的方法是 SILC，它将 CLIP 与自蒸馏结合。然而，如实验消融显示，添加掩码图像损失在密集任务中的表现显著提升，对于下游应用至关重要。指出与先前方法的一些关键区别。由于使用 CLIP 损失，自监督组件可以简化，相比 DINO和 iBOT的原始形式。一大区别是使用单一全局“裁剪”，而非 DINO、iBOT 和 SILC 中的双裁剪，提升了25%的处理效率。此外，与许多自监督方法不同，使用相对简单的数据增强：局部裁剪只是原始图像的随机裁剪，全局裁剪是更大的随机裁剪并水平翻转。这与 Assran 等 (2023); Moutakanni 等 (2024) 的观点相似，即复杂的增强可能对于表示学习并非必要。最后，本文的掩码方法为随机掩码，而非 iBOT 中的块状掩码。

扩展 TIPS

本文的目标是创建一个高度通用的模型，因此关键是将其扩展到大模型架构和大规模训练数据集，以获得增强的图像表示。

模型。ViT 架构已证明在多个任务中可扩展到十亿级参数的模型。将 TIPS 模型扩展至 ViT-g 架构，采用14的补丁大小，并使用 SwiGLU前馈网络变体。类似于 Oquab 等，将嵌入维度调整为1536，并设置24个头。这样，使得图像编码器与 DINOv2-g 直接可比，总参数量达1.1B。在文本侧，将 transformer 扩展到12层，具有与图像编码器相同的嵌入维度和头数。

数据集 。利用了 WebLI 数据集，这是一个包含公共图像及其 alt 文本的大规模、噪声较大的网络数据集，总共包含 100 亿对图文样本。通过多轮过滤来提升数据集质量，从而更适合模型训练，类似于先前在语言和视觉领域的研究。首先，根据预训练对齐模型计算的图文相似度，对图文对进行内容过滤，丢弃那些相似度低的样本，类似于 Schuhmann et al. 。然后，筛选仅包含英文描述的样本。这两个步骤得到一个包含 17 亿张图像的数据集。最后，参考先前研究的方法，使用预训练模型计算图像嵌入，从经过策划的数据集中选择足够相似的图像。还删除了在评估数据集中出现的近重复图像。该过程最终生成了一个包含 1.16 亿对图文样本的主要预训练数据集。

实验

实验设置

评估数据集与协议 。本文的模型在包含 16 个数据集的 8 项任务上进行评估，包括仅图像任务和图文任务。在各种条件下全面评估所学习的表示的质量，涵盖室内/室外场景和以物体为中心的图像。在所有评估中，保持图文表示冻结，以评估其作为即用型特征提取器的适用性。评估了 3 项密集预测任务、2 项全局图像理解任务和 3 项多模态检索任务。

语义分割 是在 PASCAL和 ADE20k数据集上使用平均交并比（mIoU）评估的密集任务。使用类似于 (Oquab et al., 2024) 的简单线性探测设置，从空间特征中预测类别。

单目深度估计 旨在预测图像中每个像素的深度值。在场景中心的 NYUv2和以物体为中心的 NAVI数据集上对深度估计进行基准测试，使用 RMSE 作为评估指标。对于 NYUv2，使用类似于 (Oquab et al., 2024) 的线性探测设置，将补丁标记与全局嵌入连接，然后线性分类器在 256 个量化深度值中进行预测。对于 NAVI，遵循 (El Banani et al., 2024) 并使用 DPT解码器。

表面法线估计 是密集预测每个像素的 3D 表面法线方向的任务，也在 NYUv2 和 NAVI 数据集上进行评估。使用 (El Banani et al., 2024) 的设置并报告角度 RMSE。

图像分类 在 ImageNet-1K 数据集上进行评估，使用 K 最近邻（KNN）和线性探测法基于学习的特征进行评估，并报告 top-1 准确率。

细粒度和实例级检索 使用 Universal Embeddings>

图像到文本（I→T）检索 使用 Flickr30K、DOCCI和 COCO数据集进行评估，报告 R@1 指标。

文本到图像（T→I）检索 同样使用 Flickr30K、DOCCI 和 COCO 数据集，使用 R@1 指标。

zero-shot 分类在 ImageNet-1K 上进行，通过检索与每个测试图像嵌入最接近的类文本嵌入，遵循（Radford et al., 2021），并使用 top-1 准确率。使用一组策划数据集中的图像作为查询，在大量网页图像中进行挖掘。遵循 DINOv2采用的步骤，使用一些评估数据集的训练集作为策划查询，细节在附录中提供。这导致了一个包含 1.16 亿对图像-文本的基于网页的训练数据集。此外，对于扩展的 ViT-g 实验，将 Mapillary SLS 数据集的训练集原封不动地添加到训练集中，以补偿网页图像中缺乏街景图像，并且在没有任何替代文本的情况下，使用生成的合成描述来训练两个 CLS token。这使训练集中的图像总数增加到 1.17 亿。DINOv2 对其 LVD-142M 数据集也进行了类似的处理。

实现细节 。对于所有模型，使用 1 个全局裁剪，分辨率为 224，和 M = 6 个局部裁剪，分辨率为 98。以批量大小 16k 训练 ViT-B 模型 70 轮，这在 256 个 TPUv3 芯片上耗时 4 天。对于更大的 ViT-g 模型，以批量大小 16k 训练 15 轮，这在 512 个 TPUv5 芯片上耗时 2 天，结果是低分辨率模型（TIPS-g/14 LR）。对于高分辨率变体（TIPS-g/14 HR），添加了一个额外的微调阶段，使用分辨率为 448 的全局裁剪和分辨率为 140 的局部裁剪，运行 0.1 轮，批量大小为 4k。仅使用随机调整大小的裁剪和水平翻转作为图像增强。

描述生成模型 。利用最近的 PaliGemma模型进行图像描述生成。使用在 COCO 上微调的版本，224 像素版本用于核心预训练运行，448 像素版本用于短期高分辨率微调阶段。

比较技术 。提供大量与最近工作的比较。对于每个现有模型家族，与最大的实例进行比较，直到 ViT 大小为“g”或“G”，图像编码器中的参数约为 18 亿或更少。本文的方法与一系列方法进行了基准测试，包括自监督、弱监督和监督文献。所有方法均使用现成的、冻结的权重进行公平比较。作为自监督方法，与 DINO、MAE、iBOT和 DINOv2进行了比较。作为弱监督方法，与 CLIP、OpenCLIP、SigLIP、SILC和 EVA-CLIP进行了比较。作为监督方法，基准测试了在 JFT-3B 上训练的 ViT-g，正如（Zhai et al., 2022）所述。

结果

消融实验 。在 5 个不同任务上展示了消融实验（见下表 1），以孤立增强文本监督和新损失的效果，其中使用了 ViT-B 骨干网。基线 CLIP 模型的噪声网页描述呈现于（A）。表的部分（B）消融了增强文本监督的贡献。仅仅用 PaliGemma 生成的描述替换网页描述就提高了 10.1 个百分点的分割精度，并减少了 0.076 的深度 RMSE，这都是巨大的正收益。这显示了合成描述在使用图像-文本模型进行密集理解中的潜力。然而，同时，全球任务显示出显著的退步，KNN 分类损失减少了 6.9 分。但通过结合网页和合成描述，CLIP 性能可以在所有任务中提高：使用双嵌入方法，在各个领域实现了巨大的收益。还将双重方法与 Fan et al.（2023）提出的其他两种描述组合选项进行比较：“采样”，其中随机选择网页或合成描述；或“多文本”，其中两个描述分别与相同的图像嵌入匹配。双重方法在 5 个案例中有 3 个表现优于其他描述组合，并在其他 2 个案例中达到竞争性结果，这表明其有效性。

部分（C）消融了自监督损失的效果，使用网页描述。自蒸馏的加入在所有任务中带来了改善。这是一个类似于 SILC的设置：确认了它们在 I→T 和 T→I 检索中的发现，并且还表明自蒸馏损失对仅图像任务（尤其是密集任务）是有效的。通过额外的掩蔽图像建模（MIM）损失，密集任务中观察到了显著改善，而在其他任务中保持了高分数：分割精度提高了 5.6 分，深度 RMSE 降低了 0.078。

部分（D）结合了（B）和（C）的发现，为基线 CLIP 设置提供了非常显著的改进，在所有任务中，特别是在分割中提高了 14.6 分，深度 RMSE 减少了 0.142，I→T 检索提高了 10.1 分，T→I 检索提高了 14.4 分。

与现有通用方法的比较在下表 2 和表 3 中提供，涉及仅图像或图像和文本的任务，其中 TIPS 的结果在高分辨率微调前（“LR”）和后（“HR”）提供。总体而言，TIPS 实现了强劲的结果，在广泛的任务中表现出竞争力，在 16 个报告的评估中，有 13 项达到了最佳或第二最佳的结果。与现有的图像-文本方法相比，TIPS 在 I→T 和 T→I 检索上有所改善，同时在密集预测任务中也取得了实质性的收益，在某些情况下达到了 DINOv2 的水平并超过了它。有趣的是，尽管最近的图像-文本模型在多模态检索或zero-shot 分类中取得了优异的结果，但这些收益并没有转化为密集理解的改进，其性能明显落后于 TIPS 和自监督方法。特别是，即使 CLIP-L 在图像级预测任务上的表现较差，但在所有 6 个密集评估中都超越了最近的 SigLIP-SO。另一种最近且规模更大的通过对比学习训练的图像模型 InternViT-6B在 ADE20k 上的得分为 47.2%，远低于本文的11 亿 TIPS-g 模型。在监督方法方面，在 JFT-3B 上训练的 ViT-g 在密集任务上的表现也不如 CLIP-L。甚至更大的 ViT-22B，也在 JFT 上训练，在相同设置下的 ADE20k 上仅获得 34.6% 的得分，如 Chen et al.（2024）所报告。与自监督技术相比，TIPS 实现了强劲的结果，在大多数情况下与 DINOv2 的数字相当，并在分割和检索方面显著超越它，同时实现了自监督方法单独无法执行的多模态任务。下图 4 展示了密集特征探针的定性示例。

应用：单图像到三维。现代大型重建模型依赖高质量的预训练图像编码器，以产生图像标记供编码器/解码器Transformer使用。例如，LRM根据单个输入图像的图像特征预测神经渲染模型的参数。作者选择基于 ViT 的 DINO 编码器，而不是更具语义意识的编码器（如 CLIP），因为 DINO 编码器掌握了进行三维任务所需的结构和纹理信息。

为了更好地理解本文模型在神经三维重建方面的能力，在 LRM 框架中评估 TIPS 的性能，并将 DINO-B/16 与同等规模的 TIPS-B/14 进行比较。选择使用 DINO-B/16，以遵循原始论文的实现。单图像到三维的结果在 Objaverse 数据集中展示在下表 4 中，结果表明 TIPS 作为大型重建模型的图像编码器优于 DINO，具有增强的新视图合成能力（PSNR 增加 0.62）。

结论

TIPS（具有空间意识的文本-图像预训练），这是一种新的通用图像-文本编码器。TIPS 可以成功地应用于各种计算机视觉任务，实现密集和图像级预测，利用两个简单有效的贡献。首先，利用现有的多模态生成模型生成高质量的合成图像描述，这些描述用于改善对比学习并提升在密集图像预测上的性能。本文提出了一种双嵌入方法，以利用合成和噪声网页描述，从而在广泛的任务中获得收益。其次，将对比图像-文本学习与自蒸馏和掩蔽图像建模相结合，激励模型学习空间感知的表示。这两个贡献是互补的，能够有效地将模型扩展到在 1.17 亿图像的精心策划数据集上训练的 ViT-g 架构。全面实验在包括 16 个数据集的 8 项任务上展示了强大的现成结果，使涉及仅图像或图像和文本的各种计算机视觉应用成为可能。

原文链接:

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载者并注明出处：https://jmbhsh.com/baihuo725/32900.html