满足不同下游任务特征需求!Sea AI Lab 提出多粒度自监督学习框架Mugs,刷新多项SOTA(2)

简介: 满足不同下游任务特征需求!Sea AI Lab 提出多粒度自监督学习框架Mugs,刷新多项SOTA

C). 粗粒度的 group 特征学习
为了避免了上述相似的 local-group 分散的过于随机或较远,Mugs 中的 group discrimination supervision 将类似的样本聚集在一起,从而拉近类似的 local-group。这样一来,Mugs 可以在更高语义级别上捕获粗粒度特征。

具体来说,如图一所示,给定, 老师和学生 backbone 分别输出接着 Mugs 把里面的 class token分别送进对应的投影网络然后,Mugs 构建了一系列的可学习聚类中心来在线计算伪聚类标签:


其中,函数是对它的输入进行 sharpening 操作。接下来,类似于监督分类任务,Mugs 使用交叉熵损失,但使用软标签作为训练损失:


D). 整体训练损失函数
最后,该方法将上述三种互补的监督损失函数融合从而形成一个整体的训练损失函数:


其中,超参数分别代表三种监督权重。在实验中,为了方便,三个超参数都设置为 1/3。

现在讨论这三个监督对特征学习的共同影响。这也将它与现有的粒度特征学习方法,例如 MoCo 和 DINO ,区分开来。如前所述,instance discrimination supervision 就是拉近同一图像的不同增广的样本,从而将不同图像的特征近似地分散 在球面上(如图一第二个球面所示)。它帮助 Mugs 学习 instance-level 的细粒度特征。其次,local-group discrimination supervision 为 instance discrimination supervision 提供补充性监督。它考虑一张图片的 local-group,并鼓励同一张图片的不同增广样本拥有高度相似的邻居。这样一来,local-group supervision 则会将 instance discrimination supervision 中过于分散的实例特征进行高阶语义的重新聚集,也就让相似的样本享有相似的特征。最后,为了避免了上述相似的 local-group 分散的过于随机或较远,Mugs 中的 group discrimination supervision 将类似的样本聚集在一起,从而拉近类似的 local-group。这样一来,Mugs 可以在更高语义级别上捕获粗粒度特征。通过这样互补的多粒度监督学习,Mugs 能够学到更贴合实际应用的特征,从而更加满足于不同下游任务对不同粒度特征的需求。

三:实验结果
Mugs 使用和其他自监督方法同样的数据集和评测方法来验证它的效果。因为 transformer 展现出比 CNN 更强大的潜能(相同规模,transformer 效果会更优,并且它也拥有一统 CV 和 NLP 的潜能),Mugs 同样主要用 transformer 架构来验证。Mugs 仅在 ImageNet 1K 的训练集上预训练,然后在 ImageNet 1K 的训练集上进行 Linear Probing 和 KNN 训练。在这两种最常见的设置下,Mugs 大幅超越已有方法。在没有额外数据训练情况下,Mugs 超过了同样设置下的最好方法 iBoT,从而取得了最新的 SOTA linear probing 精度 82.1%。另外,在 KNN 设置下,Mugs 甚至超越了 ImageNet 1K 和 ImageNet22K 训练的最好方法 iBOT,从而刷新了 KNN 下的 SoTA。具体实验结果可以参看图二和图三。

图二:在 ImageNet-1K 预训练设置下,各种自监督方法的 Linear Probing 精度对比。通过在 ImageNet-1K 上进行预训练,在不同的模型尺寸 (见(a)) 和预训练时间 (见(b)) 下,Mugs 大幅的提高了之前的 SoTA (iBOT)。

图三:在 ImageNet-1K 上 Linear Probing 和 KNN 的精度对比。

另外,在其他的设置下,包括微调网络,半监督学习,迁移学习,物体检测,实例分割,语义分割,视频语义分割等 7 项任务上,Mugs 也超越了同样设置下的 SoTA 方法。具体可参看原文。

最后 Mugs 还展示了一些注意力可视化效果图。从图四可以看出,在没有标签的情况下,Mugs 仍然学到了语义信息。譬如 Mugs 能够很好地检测到物体的形状以及位置。

图四:Mugs 预训练的 ViT-Base/16 上的自注意力可视化

Mugs 还使用 T-SNE 揭示 MoCo-v3、DINO、iBOT 和 Mugs 所学习到的特征之间的差异。在图五中,每种颜色代表一个独特的类。通过对比,针对一个类,Mugs 经常在特征空间中将其划分为几个小簇,例如棕色的 6 个簇,紫色的 4 个簇,红色的 6 个簇,蓝色的 5 个簇,然后将这些小簇分散在一个大的类中。这些结果揭示了该特征中的多粒度结构: 分散的大类(即不同的颜色)对应于粗粒度特征,一个类中几个分散的小簇显示了更小的粗粒度(稍微高级的细粒度); 每一个小簇中的一些单独实例显示了实例级的细粒度。相比之下,MoCo-v3、DINO 和 iBOT 通常不显示这种多粒度特征结构。正如前文所述,不同下游任务通常需要不同粒度特征甚至多粒度特征。因此,这些可视化也能帮助解释为什么 Mugs 能够超越单粒度特征学习方法。

图五:各种自监督学习预训练的 ViT-Base/16 上的 T-SNE 可视化 T-SNE。

参考文献
[1] Zhou, P., and Zhou, Y., and Si, C., and Yu, W., and Ng, T.,  and Yan, S., : Mugs: A Multi-Granular Self-Supervised Learning Framework. arXiv preprint arXiv: 2203.14415 (2022)[2] Chen, X., Xie, S., He, K.: An empirical study of training self-supervised vision transformers. arXiv preprint arXiv:2104.02057 (2021)[3] Caron, M., Touvron, H., Misra, I., J ́egou, H., Mairal, J., Bojanowski, P., Joulin, A.: Emerging properties in self-supervised vision transformers. arXiv preprint arXiv:2104.14294 (2021)[4] Caron, M., Bojanowski, P., Joulin, A., Douze, M.: Deep clustering for unsupervised learning of visual features. In: Proceedings of the European Conference on Computer Vision (ECCV). pp. 132–149 (2018)[5] Zhou, J., Wei, C., Wang, H., Shen, W., Xie, C., Yuille, A., Kong, T.: iBOT: Image bert pre-training with online tokenizer. arXiv preprint arXiv:2111.07832 (2021)

相关文章
|
9天前
|
机器学习/深度学习 人工智能 自然语言处理
DiffSensei:AI 漫画生成框架,能生成内容可控的黑白漫画面板,支持多角色和布局控制
DiffSensei 是一个由北京大学、上海AI实验室及南洋理工大学共同推出的AI漫画生成框架,能够生成可控的黑白漫画面板。该框架整合了基于扩散的图像生成器和多模态大型语言模型(MLLM),支持多角色控制和精确布局控制,适用于漫画创作、个性化内容生成等多个领域。
69 18
DiffSensei:AI 漫画生成框架,能生成内容可控的黑白漫画面板,支持多角色和布局控制
|
5天前
|
机器学习/深度学习 人工智能
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
Leffa 是 Meta 开源的图像生成框架,通过引入流场学习在注意力机制中精确控制人物的外观和姿势。该框架不增加额外参数和推理成本,适用于多种扩散模型,展现了良好的模型无关性和泛化能力。
39 11
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
|
10天前
|
人工智能 API 语音技术
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。
93 15
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
|
11天前
|
人工智能 安全 PyTorch
SPDL:Meta AI 推出的开源高性能AI模型数据加载解决方案,兼容主流 AI 框架 PyTorch
SPDL是Meta AI推出的开源高性能AI模型数据加载解决方案,基于多线程技术和异步事件循环,提供高吞吐量、低资源占用的数据加载功能,支持分布式系统和主流AI框架PyTorch。
44 10
SPDL:Meta AI 推出的开源高性能AI模型数据加载解决方案,兼容主流 AI 框架 PyTorch
|
11天前
|
人工智能 自然语言处理 前端开发
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。
74 9
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
|
13天前
|
机器学习/深度学习 人工智能
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
SNOOPI是一个创新的AI文本到图像生成框架,通过增强单步扩散模型的指导,显著提升模型性能和控制力。该框架包括PG-SB和NASA两种技术,分别用于增强训练稳定性和整合负面提示。SNOOPI在多个评估指标上超越基线模型,尤其在HPSv2得分达到31.08,成为单步扩散模型的新标杆。
55 10
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
AI自己长出了类似大脑的脑叶?新研究揭示LLM特征的惊人几何结构
近年来,大型语言模型(LLM)的内部运作机制备受关注。麻省理工学院的研究人员在论文《The Geometry of Concepts: Sparse Autoencoder Feature Structure》中,利用稀疏自编码器(SAE)分析LLM的激活空间,揭示了其丰富的几何结构。研究发现,特征在原子、大脑和星系三个尺度上展现出不同的结构,包括晶体结构、中尺度模块化结构和大尺度点云结构。这些发现不仅有助于理解LLM的工作原理,还可能对模型优化和其他领域产生重要影响。
46 25
|
10天前
|
数据采集 人工智能 编解码
书生·万象InternVL 2.5:上海 AI Lab 开源的多模态大语言模型,超越了目前许多商业模型
书生·万象InternVL 2.5是由上海AI实验室OpenGVLab团队推出的开源多模态大语言模型系列。该模型在多模态理解基准(MMMU)上表现优异,超越了许多商业模型,适用于图像和视频分析、视觉问答、文档理解和多语言处理等多个领域。
56 7
书生·万象InternVL 2.5:上海 AI Lab 开源的多模态大语言模型,超越了目前许多商业模型
|
5天前
|
机器学习/深度学习 人工智能 算法
AI框架的赢者法则:生态繁荣的昇思MindSpore,成为大模型时代的新选择
2024年被视为大模型应用的元年。昇思MindSpore AI框架凭借其强大的开源社区和技术创新,在全球范围内迅速崛起。截至2024年11月,该框架的下载量已超过1100万次,覆盖130多个国家和地区的2400多个城市,拥有3.7万名贡献者。昇思MindSpore不仅在人才培养和社区治理方面表现出色,还在大模型的开发、训练和应用中发挥了关键作用,支持了50多个主流大模型,覆盖15个行业。随着其市场份额预计达到30%,昇思MindSpore正逐步成为行业共识,推动大模型在各领域的广泛应用。
33 12
|
3天前
|
人工智能 计算机视觉
幻觉不一定有害,新框架用AI的幻觉优化图像分割技术
在图像分割领域,传统方法依赖大量手动标注数据,效率低下且难以适应复杂场景。为解决这一问题,研究人员提出了“任务通用可提示分割”方法,利用多模态大型语言模型(MLLM)生成实例特定提示。然而,MLLM常出现幻觉,影响分割精度。为此,研究团队开发了“Prompt-Mask Cycle”(ProMaC)框架,通过迭代生成和验证提示及掩码,有效利用幻觉信息,提高了分割精度和效率。实验结果表明,ProMaC在多个基准数据集上表现出色,为图像分割技术的发展提供了新思路。
16 6
下一篇
DataWorks