SigLIP 2:多语言语义理解、定位和密集特征的视觉语言编码器

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,1000CU*H 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: SigLIP 2 是一种改进的多语言视觉-语言编码器系列,通过字幕预训练、自监督学习和在线数据管理优化性能。它在零样本分类、图像-文本检索及视觉表示提取中表现卓越,支持多分辨率处理并保持图像纵横比。模型提供 ViT-B 至 g 四种规格,采用 WebLI 数据集训练,结合 Sigmoid 损失与自蒸馏等技术提升效果。实验表明,SigLIP 2 在密集预测、定位任务及多模态应用中显著优于前代和其他基线模型。

SigLIP 2 是一个新型多语言视觉-语言编码器系列,通过整合基于字幕的预训练、自监督学习机制(包括自蒸馏和掩码预测)以及在线数据管理策略,对原始 SigLIP 模型进行了显著改进。这些优化使 SigLIP 2 在零样本分类、图像-文本检索以及为视觉语言模型(VLM)提供视觉表示提取方面均取得了卓越性能。模型在定位和密集预测任务中展现出明显提升,同时支持多种分辨率处理,并能保持图像原始纵横比。

SigLIP 2 提供四种模型规格:ViT-B (86M)、L (303M)、So400m (400M) 和 g (1B)。

架构、训练数据、优化器

SigLIP 2 保留了原始 SigLIP 的基础架构,使用户能够方便地交换编码器权重。模型采用具有可学习位置嵌入的 ViT 架构,图像和文本编码器结构相同,唯一例外是最大规格的视觉模型,它与 So400m 规格的文本编码器配对使用。表示向量通过基于注意力机制的 MAP 头进行池化处理。文本输入长度限制为 64 个 tokens(使用多语言 Gemma tokenizer,词汇量为 256k)。

训练数据采用 WebLI 数据集,包含 100 亿张图像和 120 亿条跨越 109 种语言的 alt-texts。训练数据混合比例为 90% 英语和 10% 非英语内容。模型训练在 2048 个 TPUv5e 芯片上进行,采用完全分片的数据并行策略。

使用 Sigmoid 损失和解码器进行训练

SigLIP 2 在预训练阶段结合了 SigLIP 和 LocCa 损失函数。与 CLIP 使用对比损失不同,SigLIP 将图像-文本匹配问题视为二元分类任务,通过逻辑回归方式训练嵌入表示。

LocCa 为未池化的视觉编码器表示增加了一个带有交叉注意力机制的 transformer 解码器。该解码器层数少于文本编码器,主要训练三项任务:图像字幕生成、指代表达式预测和有根据的字幕生成。区域-字幕对通过 n-gram 提取技术和开放词汇检测方法自动标记生成。

使用自蒸馏和掩码预测进行训练

局部到全局一致性损失中,受 SILC 研究启发,视觉编码器承担学生网络角色,处理局部(部分)图像块,并学习匹配由教师网络生成的完整图像表示。教师参数通过学生过去参数的指数移动平均值进行更新。研究团队采用一个教师和八个学生的配置。

掩码预测损失中,基于 TIPS 方法,学生模型中 50% 的嵌入图像块被替换为掩码 tokens。随后训练学生模型以匹配教师在掩码位置的特征表示。与第一个损失(侧重于完整图像表示)不同,此损失函数针对单个逐块特征应用。教师和学生模型均接收相同的全局图像输入。

这些额外的损失函数在训练完成 80% 时引入,教师模型从学生模型初始化,而额外参数(头部、掩码 tokens 和优化器参数)采用随机初始化。原始图像用于计算 SigLIP 和 LocCa 损失,增强视图则用于新引入的损失函数,确保图像-文本对齐不受干扰。

适应不同的分辨率

为获取支持多分辨率的固定分辨率检查点,SigLIP 2 从原始检查点(序列长度 256,patch size 16)恢复训练,在训练完成 95% 时进行调整。模型会根据目标序列长度调整位置嵌入大小,并在新分辨率下继续训练,同时应用所有损失函数。

NaFlex 技术扩展了 FlexiViT 和 NaViT 的理念,使单个 ViT 模型能够支持多个预定义序列长度,同时保持图像原始纵横比处理。这种方法最大程度减少了纵横比失真,对于 OCR 和文档图像处理等任务尤为重要。

NaFlex 首先调整图像尺寸,确保其维度为 patch size 的整数倍。调整后的图像被分割成 patch,如果序列长度小于目标长度,则添加包含 patch 坐标和填充信息的数据。使用抗锯齿双线性方法调整位置嵌入大小,以匹配调整后输入的非正方形 patch 网格。

NaFlex 训练从默认 SigLIP 2 检查点开始,这些检查点初始阶段使用非纵横比保持的方式调整至 256px(序列长度 256)进行训练。在训练完成 90% 时,切换至纵横比保持的调整方式,并从 128、256、576、784、1024 序列长度中均匀采样。

为保持复杂度可管理,自蒸馏和掩码预测损失在此训练阶段不予应用。

通过主动数据管理进行蒸馏

为提升最小规格固定分辨率模型的性能,SigLIP 2 在短期微调阶段应用知识蒸馏技术(4b 样本,仅包含 sigmoid 图像-文本损失)。

研究团队采用 ACID 方法实现隐式"通过数据蒸馏"。每个训练步骤中,教师模型和当前学习者模型基于样本"可学习性"进行评分,从更大的超级批次中选择信息量最大的批次。然而,不同于传统双教师方法,研究人员首先基于精选高质量数据集的 1B 样本对单个强大教师模型进行微调。这一微调后的教师模型(融合不同预训练知识与高质量精选数据)用于 ACID 过程,实现隐式知识转移,达到与 ACED 相当的结果,而无需显式 softmax 蒸馏。

实验和结果

SigLIP 2 在零样本分类和图像-文本检索任务上表现优于 SigLIP 及其他开源基线模型,尽管同时支持多语言处理。模型显著提高了检索召回率,特别是对于通过蒸馏优化的小规格模型。

NaFlex 变体在 OCR/文档为基础的检索任务中表现卓越,但对于自然图像基准测试,标准 B 规格模型性能优于 NaFlex,这可能源于其蒸馏步骤的影响。

通过将 SigLIP 2 与 Gemma 2 2B LLM 集成并在 50M 多模态样本上训练,研究团队评估了 SigLIP 2 在 VLM 中的视觉表示提取能力。结果表明,SigLIP 2 在所有分辨率和模型规格上均优于原始 SigLIP。

SigLIP 2 在密集预测和定位任务中展现出强大性能:

  • 语义分割、深度估计和表面法线估计任务中,SigLIP 2 使用线性层或 DPT 解码器进行评估,其性能明显优于以往 CLIP 风格的视觉编码器,包括 SigLIP。
  • 开放词汇分割任务上,SigLIP 2 超越了 SigLIP 甚至规格更大的 OpenCLIP G/14 模型。
  • 指代表达式理解方面,SigLIP 2 优于 SigLIP、CLIP 和图像字幕预训练模型。然而,其性能不及 LocCa,这很可能是由于 SigLIP 2 的多语言预训练策略与 LocCa 仅使用英语数据的差异所致。
  • 开放词汇检测任务中,SigLIP 2 改进了 SigLIP 的表现,在 LVIS 稀有类别上获得最显著提升。它还优于 OWL-ViT,这很可能归功于使用 SigLIP 而非 CLIP 作为基础架构。

论文地址:

https://avoid.overfit.cn/post/8d325c653acb4c3f8a1e83c649551f6a

目录
相关文章
|
存储 缓存 Linux
如何在Linux环境下对pip的缓存地址进行修改
如何在Linux环境下对pip的缓存地址进行修改
2631 0
|
2月前
|
机器学习/深度学习 传感器 编解码
DINOv3上手指南:改变视觉模型使用方式,一个模型搞定分割、检测、深度估计
DINOv3是Meta推出的自监督视觉模型,支持冻结主干、仅训练轻量任务头即可在分割、深度估计等任务上达到SOTA,极大降低训练成本。其密集特征质量优异,适用于遥感、工业检测等多领域,真正实现“一个模型走天下”。
2375 2
DINOv3上手指南:改变视觉模型使用方式,一个模型搞定分割、检测、深度估计
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
多模态AI核心技术:CLIP与SigLIP技术原理与应用进展
近年来,多模态表示学习在人工智能领域取得显著进展,CLIP和SigLIP成为里程碑式模型。CLIP由OpenAI提出,通过对比学习对齐图像与文本嵌入空间,具备强大零样本学习能力;SigLIP由Google开发,采用sigmoid损失函数优化训练效率与可扩展性。两者推动了多模态大型语言模型(MLLMs)的发展,如LLaVA、BLIP-2和Flamingo等,实现了视觉问答、图像描述生成等复杂任务。这些模型不仅拓展了理论边界,还为医疗、教育等领域释放技术潜力,标志着多模态智能系统的重要进步。
1343 13
多模态AI核心技术:CLIP与SigLIP技术原理与应用进展
|
并行计算 Docker 容器
Mamba 环境安装:causal-conv1d和mamba-ssm报错解决办法
Mamba 环境安装:causal-conv1d和mamba-ssm报错解决办法
5114 0
|
4月前
|
Linux 计算机视觉 C++
【解决方案】Building wheel for opencv-python:安装卡顿的原因与解决方案
当你安装OpenCV时,命令行停在Building wheel for opencv-python (PEP 517) ... -似乎卡住了。这并非程序假死,而是其编译耗时巨大。本文将揭示原因,并提供优化安装体验的实用方法。
670 88
|
算法 数据库 计算机视觉
Dataset之COCO数据集:COCO数据集的简介、下载、使用方法之详细攻略
Dataset之COCO数据集:COCO数据集的简介、下载、使用方法之详细攻略
|
8月前
|
机器学习/深度学习 算法
广义优势估计(GAE):端策略优化PPO中偏差与方差平衡的关键技术
广义优势估计(GAE)由Schulman等人于2016年提出,是近端策略优化(PPO)算法的核心理论基础。它通过平衡偏差与方差,解决了强化学习中的信用分配问题,即如何准确判定历史动作对延迟奖励的贡献。GAE基于资格迹和TD-λ思想,采用n步优势的指数加权平均方法,将优势函数有效集成到损失函数中,为策略优化提供稳定梯度信号。相比TD-λ,GAE更适用于现代策略梯度方法,推动了高效强化学习算法的发展。
1121 3
广义优势估计(GAE):端策略优化PPO中偏差与方差平衡的关键技术
|
5月前
|
机器学习/深度学习 自然语言处理 测试技术
Qwen3技术报告首次全公开!“混合推理模型”是这样炼成的
近日,通义千问Qwen3系列模型已开源,其技术报告也正式发布。Qwen3系列包含密集模型和混合专家(MoE)模型,参数规模从0.6B到235B不等。该模型引入了“思考模式”与“非思考模式”的动态切换机制,并采用思考预算机制优化推理性能。Qwen3支持119种语言及方言,较前代显著提升多语言能力,在多个基准测试中表现领先。此外,通过强到弱蒸馏技术,轻量级模型性能优异,且计算资源需求更低。所有Qwen3模型均采用Apache 2.0协议开源,便于社区开发与应用。
4298 30
|
4月前
|
人工智能 安全 API
用Qwen Code,体验全新AI编程——高效模型接入首选ModelGate
Qwen Code 是通义千问推出的AI编程助手,支持自然语言编程与智能代码生成,大幅提升开发效率。结合 ModelGate,可实现多模型统一管理、安全调用,解决API切换、权限控制、稳定性等问题,是Claude Code的理想国产替代方案。
|
6月前
|
机器学习/深度学习 PyTorch 编译器
深入解析torch.compile:提升PyTorch模型性能、高效解决常见问题
PyTorch 2.0推出的`torch.compile`功能为深度学习模型带来了显著的性能优化能力。本文从实用角度出发,详细介绍了`torch.compile`的核心技巧与应用场景,涵盖模型复杂度评估、可编译组件分析、系统化调试策略及性能优化高级技巧等内容。通过解决图断裂、重编译频繁等问题,并结合分布式训练和NCCL通信优化,开发者可以有效提升日常开发效率与模型性能。文章为PyTorch用户提供了全面的指导,助力充分挖掘`torch.compile`的潜力。
737 17