SigLIP 2：多语言语义理解、定位和密集特征的视觉语言编码器-阿里云开发者社区

SigLIP 2：多语言语义理解、定位和密集特征的视觉语言编码器

2025-03-12 709

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时数仓Hologres，5000CU*H 100GB 3个月

实时计算 Flink 版，1000CU*H 3个月

智能开放搜索 OpenSearch行业算法版，1GB 20LCU 1个月

简介： SigLIP 2 是一种改进的多语言视觉-语言编码器系列，通过字幕预训练、自监督学习和在线数据管理优化性能。它在零样本分类、图像-文本检索及视觉表示提取中表现卓越，支持多分辨率处理并保持图像纵横比。模型提供 ViT-B 至 g 四种规格，采用 WebLI 数据集训练，结合 Sigmoid 损失与自蒸馏等技术提升效果。实验表明，SigLIP 2 在密集预测、定位任务及多模态应用中显著优于前代和其他基线模型。

SigLIP 2 是一个新型多语言视觉-语言编码器系列，通过整合基于字幕的预训练、自监督学习机制（包括自蒸馏和掩码预测）以及在线数据管理策略，对原始 SigLIP 模型进行了显著改进。这些优化使 SigLIP 2 在零样本分类、图像-文本检索以及为视觉语言模型(VLM)提供视觉表示提取方面均取得了卓越性能。模型在定位和密集预测任务中展现出明显提升，同时支持多种分辨率处理，并能保持图像原始纵横比。

SigLIP 2 提供四种模型规格：ViT-B (86M)、L (303M)、So400m (400M) 和 g (1B)。

架构、训练数据、优化器

SigLIP 2 保留了原始 SigLIP 的基础架构，使用户能够方便地交换编码器权重。模型采用具有可学习位置嵌入的 ViT 架构，图像和文本编码器结构相同，唯一例外是最大规格的视觉模型，它与 So400m 规格的文本编码器配对使用。表示向量通过基于注意力机制的 MAP 头进行池化处理。文本输入长度限制为 64 个 tokens（使用多语言 Gemma tokenizer，词汇量为 256k）。

训练数据采用 WebLI 数据集，包含 100 亿张图像和 120 亿条跨越 109 种语言的 alt-texts。训练数据混合比例为 90% 英语和 10% 非英语内容。模型训练在 2048 个 TPUv5e 芯片上进行，采用完全分片的数据并行策略。

使用 Sigmoid 损失和解码器进行训练

SigLIP 2 在预训练阶段结合了 SigLIP 和 LocCa 损失函数。与 CLIP 使用对比损失不同，SigLIP 将图像-文本匹配问题视为二元分类任务，通过逻辑回归方式训练嵌入表示。

LocCa 为未池化的视觉编码器表示增加了一个带有交叉注意力机制的 transformer 解码器。该解码器层数少于文本编码器，主要训练三项任务：图像字幕生成、指代表达式预测和有根据的字幕生成。区域-字幕对通过 n-gram 提取技术和开放词汇检测方法自动标记生成。

使用自蒸馏和掩码预测进行训练

在局部到全局一致性损失中，受 SILC 研究启发，视觉编码器承担学生网络角色，处理局部（部分）图像块，并学习匹配由教师网络生成的完整图像表示。教师参数通过学生过去参数的指数移动平均值进行更新。研究团队采用一个教师和八个学生的配置。

在掩码预测损失中，基于 TIPS 方法，学生模型中 50% 的嵌入图像块被替换为掩码 tokens。随后训练学生模型以匹配教师在掩码位置的特征表示。与第一个损失（侧重于完整图像表示）不同，此损失函数针对单个逐块特征应用。教师和学生模型均接收相同的全局图像输入。

这些额外的损失函数在训练完成 80% 时引入，教师模型从学生模型初始化，而额外参数（头部、掩码 tokens 和优化器参数）采用随机初始化。原始图像用于计算 SigLIP 和 LocCa 损失，增强视图则用于新引入的损失函数，确保图像-文本对齐不受干扰。

适应不同的分辨率

为获取支持多分辨率的固定分辨率检查点，SigLIP 2 从原始检查点（序列长度 256，patch size 16）恢复训练，在训练完成 95% 时进行调整。模型会根据目标序列长度调整位置嵌入大小，并在新分辨率下继续训练，同时应用所有损失函数。

NaFlex 技术扩展了 FlexiViT 和 NaViT 的理念，使单个 ViT 模型能够支持多个预定义序列长度，同时保持图像原始纵横比处理。这种方法最大程度减少了纵横比失真，对于 OCR 和文档图像处理等任务尤为重要。

NaFlex 首先调整图像尺寸，确保其维度为 patch size 的整数倍。调整后的图像被分割成 patch，如果序列长度小于目标长度，则添加包含 patch 坐标和填充信息的数据。使用抗锯齿双线性方法调整位置嵌入大小，以匹配调整后输入的非正方形 patch 网格。

NaFlex 训练从默认 SigLIP 2 检查点开始，这些检查点初始阶段使用非纵横比保持的方式调整至 256px（序列长度 256）进行训练。在训练完成 90% 时，切换至纵横比保持的调整方式，并从 128、256、576、784、1024 序列长度中均匀采样。

为保持复杂度可管理，自蒸馏和掩码预测损失在此训练阶段不予应用。

通过主动数据管理进行蒸馏

为提升最小规格固定分辨率模型的性能，SigLIP 2 在短期微调阶段应用知识蒸馏技术（4b 样本，仅包含 sigmoid 图像-文本损失）。

研究团队采用 ACID 方法实现隐式"通过数据蒸馏"。每个训练步骤中，教师模型和当前学习者模型基于样本"可学习性"进行评分，从更大的超级批次中选择信息量最大的批次。然而，不同于传统双教师方法，研究人员首先基于精选高质量数据集的 1B 样本对单个强大教师模型进行微调。这一微调后的教师模型（融合不同预训练知识与高质量精选数据）用于 ACID 过程，实现隐式知识转移，达到与 ACED 相当的结果，而无需显式 softmax 蒸馏。

实验和结果

SigLIP 2 在零样本分类和图像-文本检索任务上表现优于 SigLIP 及其他开源基线模型，尽管同时支持多语言处理。模型显著提高了检索召回率，特别是对于通过蒸馏优化的小规格模型。

NaFlex 变体在 OCR/文档为基础的检索任务中表现卓越，但对于自然图像基准测试，标准 B 规格模型性能优于 NaFlex，这可能源于其蒸馏步骤的影响。

通过将 SigLIP 2 与 Gemma 2 2B LLM 集成并在 50M 多模态样本上训练，研究团队评估了 SigLIP 2 在 VLM 中的视觉表示提取能力。结果表明，SigLIP 2 在所有分辨率和模型规格上均优于原始 SigLIP。

SigLIP 2 在密集预测和定位任务中展现出强大性能：

在语义分割、深度估计和表面法线估计任务中，SigLIP 2 使用线性层或 DPT 解码器进行评估，其性能明显优于以往 CLIP 风格的视觉编码器，包括 SigLIP。
在开放词汇分割任务上，SigLIP 2 超越了 SigLIP 甚至规格更大的 OpenCLIP G/14 模型。
在指代表达式理解方面，SigLIP 2 优于 SigLIP、CLIP 和图像字幕预训练模型。然而，其性能不及 LocCa，这很可能是由于 SigLIP 2 的多语言预训练策略与 LocCa 仅使用英语数据的差异所致。
在开放词汇检测任务中，SigLIP 2 改进了 SigLIP 的表现，在 LVIS 稀有类别上获得最显著提升。它还优于 OWL-ViT，这很可能归功于使用 SigLIP 而非 CLIP 作为基础架构。

论文地址：

https://avoid.overfit.cn/post/8d325c653acb4c3f8a1e83c649551f6a

SigLIP 2：多语言语义理解、定位和密集特征的视觉语言编码器

架构、训练数据、优化器

使用 Sigmoid 损失和解码器进行训练

使用自蒸馏和掩码预测进行训练

适应不同的分辨率

通过主动数据管理进行蒸馏

实验和结果

大数据与机器学习

热门文章

最新文章

相关电子书