CV领域再创佳绩!阿里云机器学习平台 PAI 多篇论文入选 ICCV 2023

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 近期,阿里云机器学习平台PAI发表的多篇论文在ICCV 2023上入选。ICCV是国际计算机视觉大会是由电气和电子工程师协会每两年举办一次的研究大会。与CVPR和ECCV一起,它被认为是计算机视觉领域的顶级会议之一。ICCV 2023将于10月2日至10月6日法国巴黎举办。ICCV汇聚了来自世界各地的学者、工程师和研究人员,分享最新的计算机视觉研究成果和技术进展。会议涵盖了计算机视觉领域的各个方向,包括图像处理、模式识别、机器学习、人工智能等等。ICCV的论文发表和演讲都备受关注,是计算机视觉领域交流和合作的重要平台。

近期,阿里云机器学习平台PAI发表的多篇论文在ICCV 2023上入选。ICCV是国际计算机视觉大会是由电气和电子工程师协会每两年举办一次的研究大会。与CVPR和ECCV一起,它被认为是计算机视觉领域的顶级会议之一。ICCV 2023将于10月2日至10月6日法国巴黎举办。ICCV汇聚了来自世界各地的学者、工程师和研究人员,分享最新的计算机视觉研究成果和技术进展。会议涵盖了计算机视觉领域的各个方向,包括图像处理、模式识别、机器学习、人工智能等等。ICCV的论文发表和演讲都备受关注,是计算机视觉领域交流和合作的重要平台。

阿里云PAI总共有3篇文章入选ICCV 2023,其中阿里云与华南理工大学联合培养项目产出了基础模型SMT和图像复原模型的指纹保护技术两篇文章,阿里云与IDEA-CVR张磊团队合作产出了目标检测Stable DINO一篇文章。此次3篇文章入选ICCV 2023,意味着阿里云PAI在国际计算机视觉领域进一步提升了影响力。


论文简述

当尺度感知调制遇上Transformer

近年来,基于Transformer和CNN的视觉基础模型取得巨大成功。有许多研究进一步地将Transformer结构与CNN架构结合,设计出了更为高效的hybrid CNN-Transformer Network,但它们的精度仍然不尽如意。本文介绍了一种新的基础模型SMT(Scale-Aware Modulation Transformer),它以更低的参数量(params)和计算量(flops)取得了大幅性能的提升。

不同于其他CNN-Transformer结合的方案,SMT基于卷积计算设计了一个新颖的轻量尺度感知调制单元Scale-Aware Modulation(SAM),它能够捕捉多尺度特征的同时扩展感受野,进一步增强卷积调制能力。此外,SMT提出了一种进化混合网络Evolutionary Hybrid Network(EHN),它能够有效地模拟网络从浅层变深时捕捉依赖关系从局部到全局的转变,从而实现更优异的性能。在ImagNet、COCO以及ADE20k等任务上都验证了该模型的有效性。值得一提的是,SMT在ImageNet-22k上预训练后以仅仅80.5M的参数量在ImageNet-1k上达到了88.1%的精度。

image.png

image.png

总的来说,在视觉基础模型backbone的探索路程中,我们有着对未来的展望:

  • 以视觉Transformer为例,除了在自监督学习等预训练中依旧用着ViT这种plain Vision Transformer,大部分视觉基础模型都以Swin和PvT这种Hierarchical架构为基础设计范式。而这种范式需要解决的问题就是如何在浅层stage中设计更高效的注意力机制计算来解决自注意力的二次复杂性带来的计算负担。是否有更优秀的计算模块能够代替SAM或者是MSA是我们后续需要继续探索的路。
  • 2023年,更多的视觉Transformer模型和CNN基础大模型被提出,它们在各大榜单上你追我赶,可以发现CV领域中CNN依旧有着一席之地。如果Transformer不能够在CV领域完全替代cnn神经网络,那么将两者的优势结合起来是否是更好的选择?因此,我们希望SMT可以作为Hybrid CNN-Transformer方向新的baseline,推动该领域的进步和发展。

稳定匹配策略提升Detection Transformer上限

本文指出在DETR中存在的不稳定的匹配问题是由多重优化路径导致的,而这个问题在DETR的one-to-one matching中会变得更加明显。我们表明仅需要在分类损失中引入了位置度量就可以很好的优化DETR中存在的不稳定匹配问题。并且基于这一原则,我们通过引入了位置度量信息提出了两个简单有效并且可以适用于所有DETR系列模型的position-supervised loss和position-modulated matching cost设计。此外,我们提出了密集memory融合来增强编码器和backbone的特征。

我们在一系列DETR模型上对我们的方法有效性进行了验证,其中我们的Stable-DINO以ResNet-50作为backbone的条件下在1x和2x标准settings下分别达到了50.4AP和51.5AP。并且我们的方法具有足够强大的scalability,使用Swin-Large和Focal-Huge backbone的条件下Stable-DINO在COCO test-dev上分别达到了63.8AP和64.8AP的准确率。

image.png

虽然我们的方法表现出了很好的性能,但我们只在类似 DETR 的图像对象检测和分割上验证它。诸如 3D 对象检测之类的更多探索将作为我们未来的工作。此外,我们只关注损失和匹配中的分类部分,而保留定位部分。对定位部分的分析也留作我们未来的工作。


针对图像复原模型的指纹保护技术

深度学习已经成为解决计算机视觉问题的一个突出工具,在开源社区中共享预先训练的DNN模型已经成为一种常见做法,许多公司和机构也提供付费的商用预训练模型服务。这为不法使用者抄袭/窃取模型创造了强烈动机,例如使用恶意软件感染或内部泄漏等方法来规避昂贵的训练过程。因此,社区和公司都有强烈需求来保护其DNN模型的知识产权。保护DNN模型知识产权的一种流行方案是模型数字水印,它会侵入地嵌入被称之为水印的特定信息到源模型中,并检查该水印在可疑模型中的存在。然而,侵入式嵌入会修改模型权重,进而可能会影响模型的效用,在实践中变得不那么理想。

最近,一种非侵入式的方法称为模型指纹技术受到了关注。与模型水印不同,指纹技术不会修改模型任何参数,其从模型中提取出称为指纹的唯一特征来识别其所有权。通过比较源模型的指纹与可疑模型的指纹来验证模型的所有权。现存的深度模型指纹方案大部分仅聚焦在图像分类问题上,如使用决策边界点作为指纹,针对深度图像复原网络的指纹方案尚未发表。图像复原模型的应用已然十分广泛,如图像去噪、超分辨率、去模糊等。因此,为探究图像复原任务中的非侵入式模型保护方法,我们首次提出了一种针对深度图像复原模型的指纹方案。

如下图所示,我们方法整体步骤如下:

  • Step1. 对源模型提取指纹;
  • Step2. 对可疑模型提取指纹,可疑模型可能是违规获取的被攻击模型,也可能是无关的清白模型,指纹验证的目的是能够区分两者;
  • Step3. 验证两组指纹的相似性,通过对两组指纹分别做特征提取,并根据在特征与统计层面上计算的偷窃概率来进行判断。

image.png

指纹提取的思路主要是基于模型反演的思想,固定模型优化图像,找出一张恰好使得模型复原难度均衡的临界图像,图示如下:

image.png

image.png

方案优缺点

对比模型水印方案,我们指纹方案最大的优点在于完全不会改变深度图像复原网络的参数,进而不会对模型性能产生任何影响,同时经实验验证能够抵御常见的模型攻击手段。但目前我们的指纹验证方案需要获取模型的梯度信息,也就是说对比之前的黑盒水印验证流程,验证方需要具备更高的权限。因此,优化验证阶段也将成为我们未来的方向。

算法开源

为了更好地服务开源社区,上述两个算法的源代码已经开源。另外,我们正在开发PAI上轻松训练推理部署上述算法的框架,大概会在10月推出,敬请期待。

Github地址:

https://github.com/AFeng-x/SMT

modelscope地址:

https://modelscope.cn/models/PAI/SMT/summary



阿里云机器学习平台 PAI 多篇论文入选 ICCV 2023

论文标题:

Scale-Aware Modulation Meet Transformer

论文作者:

林炜丰、吴梓恒、陈佳禹、黄俊、金连文

论文PDF链接:

https://arxiv.org/pdf/2307.08579.pdf

● 论文标题:

Detection Transformer with Stable Matching

论文作者:

刘世隆、任天和、陈佳禹、曾兆阳、张浩、李峰、李弘洋、黄俊、苏航、朱军、张磊

论文PDF链接:

https://arxiv.org/pdf/2304.04742.pdf

论文标题:

Fingerprinting Deep Image Restoration Models

论文作者:

全宇晖、滕寰、许若涛、黄俊、纪辉

论文PDF链接:

https://csyhquan.github.io/manuscript/23-iccv-Fingerprinting%20Deep%20Image%20Restoration%20Models.pdf

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
2天前
|
机器学习/深度学习 数据采集 人工智能
论文介绍:机器学习中数据集规模增长的极限分析
【5月更文挑战第17天】论文《机器学习中数据集规模增长的极限分析》探讨了数据集大小对AI模型性能的影响,预测语言数据可能在2026年前耗尽,图像数据在2030-2060年可能面临相同问题。研究显示数据积累速度无法跟上数据集增长,可能在2030-2040年间导致训练瓶颈。然而,算法创新和新数据源的发展可能缓解这一问题。[链接](https://arxiv.org/pdf/2211.04325.pdf)
9 2
|
5天前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI
人工智能平台PAI
16 0
|
5天前
|
机器学习/深度学习 数据采集 算法
数据分享|R语言机器学习预测案例合集:众筹平台、机票折扣、糖尿病患者、员工满意度
数据分享|R语言机器学习预测案例合集:众筹平台、机票折扣、糖尿病患者、员工满意度
|
5天前
|
人工智能 分布式计算 Cloud Native
阿里云PAI平台架构介绍
阿里云PAI平台架构介绍
29 0
|
5天前
|
机器学习/深度学习 人工智能 分布式计算
阿里云机器学习PAI介绍
阿里云机器学习PAI介绍
33 1
|
5天前
|
机器学习/深度学习 人工智能 供应链
【专栏】阿里云RPA的Rap程序是自动化流程脚本,基于AI和机器学习,实现业务流程自动化
【4月更文挑战第29天】阿里云RPA的Rap程序是自动化流程脚本,基于AI和机器学习,实现业务流程自动化。具有灵活性、易用性、高效稳定和智能学习等特点。广泛应用于财务、人力资源、客服和供应链等领域,未来将与AI深度融合,跨平台应用,行业定制化,并构建完善生态,助力企业效率提升和创新。
|
5天前
|
机器学习/深度学习 存储 人工智能
人工智能平台PAI产品使用合集之是否可以在模型部署发布后以http接口形式提供给业务开发人员使用
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
5天前
|
机器学习/深度学习 人工智能 运维
人工智能平台PAI产品使用合集之机器学习PAI可以通过再建一个done分区或者使用instance.status来进行部署吗
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
5天前
|
机器学习/深度学习 人工智能 API
人工智能平台PAI产品使用合集之机器学习PAI中的sample_weight怎么加在样本中
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
5天前
|
机器学习/深度学习 人工智能 数据处理
人工智能平台PAI产品使用合集之机器学习PAI EasyRec中的eval_config的使用方法是什么
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。

热门文章

最新文章

相关产品

  • 人工智能平台 PAI