CV领域再创佳绩!阿里云机器学习平台 PAI 多篇论文入选 ICCV 2023

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 近期,阿里云机器学习平台PAI发表的多篇论文在ICCV 2023上入选。ICCV是国际计算机视觉大会是由电气和电子工程师协会每两年举办一次的研究大会。与CVPR和ECCV一起,它被认为是计算机视觉领域的顶级会议之一。ICCV 2023将于10月2日至10月6日法国巴黎举办。ICCV汇聚了来自世界各地的学者、工程师和研究人员,分享最新的计算机视觉研究成果和技术进展。会议涵盖了计算机视觉领域的各个方向,包括图像处理、模式识别、机器学习、人工智能等等。ICCV的论文发表和演讲都备受关注,是计算机视觉领域交流和合作的重要平台。

近期,阿里云机器学习平台PAI发表的多篇论文在ICCV 2023上入选。ICCV是国际计算机视觉大会是由电气和电子工程师协会每两年举办一次的研究大会。与CVPR和ECCV一起,它被认为是计算机视觉领域的顶级会议之一。ICCV 2023将于10月2日至10月6日法国巴黎举办。ICCV汇聚了来自世界各地的学者、工程师和研究人员,分享最新的计算机视觉研究成果和技术进展。会议涵盖了计算机视觉领域的各个方向,包括图像处理、模式识别、机器学习、人工智能等等。ICCV的论文发表和演讲都备受关注,是计算机视觉领域交流和合作的重要平台。

阿里云PAI总共有3篇文章入选ICCV 2023,其中阿里云与华南理工大学联合培养项目产出了基础模型SMT和图像复原模型的指纹保护技术两篇文章,阿里云与IDEA-CVR张磊团队合作产出了目标检测Stable DINO一篇文章。此次3篇文章入选ICCV 2023,意味着阿里云PAI在国际计算机视觉领域进一步提升了影响力。


论文简述

当尺度感知调制遇上Transformer

近年来,基于Transformer和CNN的视觉基础模型取得巨大成功。有许多研究进一步地将Transformer结构与CNN架构结合,设计出了更为高效的hybrid CNN-Transformer Network,但它们的精度仍然不尽如意。本文介绍了一种新的基础模型SMT(Scale-Aware Modulation Transformer),它以更低的参数量(params)和计算量(flops)取得了大幅性能的提升。

不同于其他CNN-Transformer结合的方案,SMT基于卷积计算设计了一个新颖的轻量尺度感知调制单元Scale-Aware Modulation(SAM),它能够捕捉多尺度特征的同时扩展感受野,进一步增强卷积调制能力。此外,SMT提出了一种进化混合网络Evolutionary Hybrid Network(EHN),它能够有效地模拟网络从浅层变深时捕捉依赖关系从局部到全局的转变,从而实现更优异的性能。在ImagNet、COCO以及ADE20k等任务上都验证了该模型的有效性。值得一提的是,SMT在ImageNet-22k上预训练后以仅仅80.5M的参数量在ImageNet-1k上达到了88.1%的精度。

image.png

image.png

总的来说,在视觉基础模型backbone的探索路程中,我们有着对未来的展望:

  • 以视觉Transformer为例,除了在自监督学习等预训练中依旧用着ViT这种plain Vision Transformer,大部分视觉基础模型都以Swin和PvT这种Hierarchical架构为基础设计范式。而这种范式需要解决的问题就是如何在浅层stage中设计更高效的注意力机制计算来解决自注意力的二次复杂性带来的计算负担。是否有更优秀的计算模块能够代替SAM或者是MSA是我们后续需要继续探索的路。
  • 2023年,更多的视觉Transformer模型和CNN基础大模型被提出,它们在各大榜单上你追我赶,可以发现CV领域中CNN依旧有着一席之地。如果Transformer不能够在CV领域完全替代cnn神经网络,那么将两者的优势结合起来是否是更好的选择?因此,我们希望SMT可以作为Hybrid CNN-Transformer方向新的baseline,推动该领域的进步和发展。

稳定匹配策略提升Detection Transformer上限

本文指出在DETR中存在的不稳定的匹配问题是由多重优化路径导致的,而这个问题在DETR的one-to-one matching中会变得更加明显。我们表明仅需要在分类损失中引入了位置度量就可以很好的优化DETR中存在的不稳定匹配问题。并且基于这一原则,我们通过引入了位置度量信息提出了两个简单有效并且可以适用于所有DETR系列模型的position-supervised loss和position-modulated matching cost设计。此外,我们提出了密集memory融合来增强编码器和backbone的特征。

我们在一系列DETR模型上对我们的方法有效性进行了验证,其中我们的Stable-DINO以ResNet-50作为backbone的条件下在1x和2x标准settings下分别达到了50.4AP和51.5AP。并且我们的方法具有足够强大的scalability,使用Swin-Large和Focal-Huge backbone的条件下Stable-DINO在COCO test-dev上分别达到了63.8AP和64.8AP的准确率。

image.png

虽然我们的方法表现出了很好的性能,但我们只在类似 DETR 的图像对象检测和分割上验证它。诸如 3D 对象检测之类的更多探索将作为我们未来的工作。此外,我们只关注损失和匹配中的分类部分,而保留定位部分。对定位部分的分析也留作我们未来的工作。


针对图像复原模型的指纹保护技术

深度学习已经成为解决计算机视觉问题的一个突出工具,在开源社区中共享预先训练的DNN模型已经成为一种常见做法,许多公司和机构也提供付费的商用预训练模型服务。这为不法使用者抄袭/窃取模型创造了强烈动机,例如使用恶意软件感染或内部泄漏等方法来规避昂贵的训练过程。因此,社区和公司都有强烈需求来保护其DNN模型的知识产权。保护DNN模型知识产权的一种流行方案是模型数字水印,它会侵入地嵌入被称之为水印的特定信息到源模型中,并检查该水印在可疑模型中的存在。然而,侵入式嵌入会修改模型权重,进而可能会影响模型的效用,在实践中变得不那么理想。

最近,一种非侵入式的方法称为模型指纹技术受到了关注。与模型水印不同,指纹技术不会修改模型任何参数,其从模型中提取出称为指纹的唯一特征来识别其所有权。通过比较源模型的指纹与可疑模型的指纹来验证模型的所有权。现存的深度模型指纹方案大部分仅聚焦在图像分类问题上,如使用决策边界点作为指纹,针对深度图像复原网络的指纹方案尚未发表。图像复原模型的应用已然十分广泛,如图像去噪、超分辨率、去模糊等。因此,为探究图像复原任务中的非侵入式模型保护方法,我们首次提出了一种针对深度图像复原模型的指纹方案。

如下图所示,我们方法整体步骤如下:

  • Step1. 对源模型提取指纹;
  • Step2. 对可疑模型提取指纹,可疑模型可能是违规获取的被攻击模型,也可能是无关的清白模型,指纹验证的目的是能够区分两者;
  • Step3. 验证两组指纹的相似性,通过对两组指纹分别做特征提取,并根据在特征与统计层面上计算的偷窃概率来进行判断。

image.png

指纹提取的思路主要是基于模型反演的思想,固定模型优化图像,找出一张恰好使得模型复原难度均衡的临界图像,图示如下:

image.png

image.png

方案优缺点

对比模型水印方案,我们指纹方案最大的优点在于完全不会改变深度图像复原网络的参数,进而不会对模型性能产生任何影响,同时经实验验证能够抵御常见的模型攻击手段。但目前我们的指纹验证方案需要获取模型的梯度信息,也就是说对比之前的黑盒水印验证流程,验证方需要具备更高的权限。因此,优化验证阶段也将成为我们未来的方向。

算法开源

为了更好地服务开源社区,上述两个算法的源代码已经开源。另外,我们正在开发PAI上轻松训练推理部署上述算法的框架,大概会在10月推出,敬请期待。

Github地址:

https://github.com/AFeng-x/SMT

modelscope地址:

https://modelscope.cn/models/PAI/SMT/summary



阿里云机器学习平台 PAI 多篇论文入选 ICCV 2023

论文标题:

Scale-Aware Modulation Meet Transformer

论文作者:

林炜丰、吴梓恒、陈佳禹、黄俊、金连文

论文PDF链接:

https://arxiv.org/pdf/2307.08579.pdf

● 论文标题:

Detection Transformer with Stable Matching

论文作者:

刘世隆、任天和、陈佳禹、曾兆阳、张浩、李峰、李弘洋、黄俊、苏航、朱军、张磊

论文PDF链接:

https://arxiv.org/pdf/2304.04742.pdf

论文标题:

Fingerprinting Deep Image Restoration Models

论文作者:

全宇晖、滕寰、许若涛、黄俊、纪辉

论文PDF链接:

https://csyhquan.github.io/manuscript/23-iccv-Fingerprinting%20Deep%20Image%20Restoration%20Models.pdf

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
30天前
|
机器学习/深度学习 PyTorch 算法框架/工具
在阿里云机器学习平台上布置一个PyTorch模型
在阿里云机器学习平台上布置一个PyTorch模型【1月更文挑战第21天】【1月更文挑战第105篇】
106 1
|
1月前
|
机器学习/深度学习 存储 分布式计算
机器学习PAI关于maxcompute上用protobuf 处理数据,比较方便的方式
机器学习PAI关于maxcompute上用protobuf 处理数据,比较方便的方式
|
1月前
|
机器学习/深度学习 人工智能 分布式计算
阿里云PAI:一站式AI研发平台,引领深度学习潮流
阿里云PAI:一站式AI研发平台,引领深度学习潮流 随着人工智能的飞速发展,深度学习框架已经成为AI研发的核心工具。然而,选择合适的深度学习框架并不容易,需要考虑的因素包括计算性能、易用性、支持的算法组件等多种因素。今天,我们就来介绍一款一站式AI研发平台——阿里云PAI,看看它如何解决这些痛点。
51 1
|
1月前
|
机器学习/深度学习 人工智能 算法
PAI:一站式机器学习平台,让你的数据智能之旅更加便捷
PAI:一站式机器学习平台,让你的数据智能之旅更加便捷 随着大数据和人工智能的飞速发展,越来越多的企业和开发者开始涉足机器学习的领域。然而,对于许多初学者来说,机器学习的复杂性和难度可能会让人望而生畏。这时,一个功能强大、易于使用的机器学习平台就显得尤为重要。今天,我就来为大家详细介绍一个来自阿里巴巴的PAI一站式机器学习平台,看看它是如何帮助开发者们轻松应对机器学习挑战的。
23 2
|
1月前
|
人工智能 算法 开发工具
Mixtral 8X7B MoE模型在阿里云PAI平台的微调部署实践
Mixtral 8x7B 是Mixtral AI最新发布的大语言模型,是当前最为先进的开源大语言模型之一。阿里云人工智能平台PAI,提供了对于 Mixtral 8x7B 模型的全面支持,开发者和企业用户可以基于 PAI-快速开始轻松完成Mixtral 8x7B 模型的微调和部署。
|
1月前
|
机器学习/深度学习 人工智能 物联网
Mixtral 8X7B MoE模型基于阿里云人工智能平台PAI实践合集
本文介绍如何在PAI平台针对Mixtral 8x7B大模型的微调和推理服务的最佳实践,助力AI开发者快速开箱。以下我们将分别展示具体使用步骤。
|
1月前
|
机器学习/深度学习 人工智能 物联网
快速玩转 Mixtral 8x7B MOE大模型,阿里云机器学习 PAI 推出最佳实践
本文介绍如何在PAI平台针对Mixtral 8x7B大模型的微调和推理服务的最佳实践,助力AI开发者快速开箱。以下我们将分别展示具体使用步骤。
|
1月前
|
机器学习/深度学习 算法 数据挖掘
讲解机器学习中的 K-均值聚类算法及其优缺点。
讲解机器学习中的 K-均值聚类算法及其优缺点。
|
1月前
|
机器学习/深度学习 算法 数据挖掘
机器学习中的 K-均值聚类算法及其优缺点
机器学习中的 K-均值聚类算法及其优缺点
107 0
|
1月前
|
机器学习/深度学习 分布式计算 算法
Spark中的机器学习库MLlib是什么?请解释其作用和常用算法。
Spark中的机器学习库MLlib是什么?请解释其作用和常用算法。
16 0

相关产品

  • 人工智能平台 PAI