CV领域再创佳绩!阿里云机器学习平台 PAI 多篇论文入选 ICCV 2023

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 近期,阿里云机器学习平台PAI发表的多篇论文在ICCV 2023上入选。ICCV是国际计算机视觉大会是由电气和电子工程师协会每两年举办一次的研究大会。与CVPR和ECCV一起,它被认为是计算机视觉领域的顶级会议之一。ICCV 2023将于10月2日至10月6日法国巴黎举办。ICCV汇聚了来自世界各地的学者、工程师和研究人员,分享最新的计算机视觉研究成果和技术进展。会议涵盖了计算机视觉领域的各个方向,包括图像处理、模式识别、机器学习、人工智能等等。ICCV的论文发表和演讲都备受关注,是计算机视觉领域交流和合作的重要平台。

近期,阿里云机器学习平台PAI发表的多篇论文在ICCV 2023上入选。ICCV是国际计算机视觉大会是由电气和电子工程师协会每两年举办一次的研究大会。与CVPR和ECCV一起,它被认为是计算机视觉领域的顶级会议之一。ICCV 2023将于10月2日至10月6日法国巴黎举办。ICCV汇聚了来自世界各地的学者、工程师和研究人员,分享最新的计算机视觉研究成果和技术进展。会议涵盖了计算机视觉领域的各个方向,包括图像处理、模式识别、机器学习、人工智能等等。ICCV的论文发表和演讲都备受关注,是计算机视觉领域交流和合作的重要平台。

阿里云PAI总共有3篇文章入选ICCV 2023,其中阿里云与华南理工大学联合培养项目产出了基础模型SMT和图像复原模型的指纹保护技术两篇文章,阿里云与IDEA-CVR张磊团队合作产出了目标检测Stable DINO一篇文章。此次3篇文章入选ICCV 2023,意味着阿里云PAI在国际计算机视觉领域进一步提升了影响力。


论文简述

当尺度感知调制遇上Transformer

近年来,基于Transformer和CNN的视觉基础模型取得巨大成功。有许多研究进一步地将Transformer结构与CNN架构结合,设计出了更为高效的hybrid CNN-Transformer Network,但它们的精度仍然不尽如意。本文介绍了一种新的基础模型SMT(Scale-Aware Modulation Transformer),它以更低的参数量(params)和计算量(flops)取得了大幅性能的提升。

不同于其他CNN-Transformer结合的方案,SMT基于卷积计算设计了一个新颖的轻量尺度感知调制单元Scale-Aware Modulation(SAM),它能够捕捉多尺度特征的同时扩展感受野,进一步增强卷积调制能力。此外,SMT提出了一种进化混合网络Evolutionary Hybrid Network(EHN),它能够有效地模拟网络从浅层变深时捕捉依赖关系从局部到全局的转变,从而实现更优异的性能。在ImagNet、COCO以及ADE20k等任务上都验证了该模型的有效性。值得一提的是,SMT在ImageNet-22k上预训练后以仅仅80.5M的参数量在ImageNet-1k上达到了88.1%的精度。

image.png

image.png

总的来说,在视觉基础模型backbone的探索路程中,我们有着对未来的展望:

  • 以视觉Transformer为例,除了在自监督学习等预训练中依旧用着ViT这种plain Vision Transformer,大部分视觉基础模型都以Swin和PvT这种Hierarchical架构为基础设计范式。而这种范式需要解决的问题就是如何在浅层stage中设计更高效的注意力机制计算来解决自注意力的二次复杂性带来的计算负担。是否有更优秀的计算模块能够代替SAM或者是MSA是我们后续需要继续探索的路。
  • 2023年,更多的视觉Transformer模型和CNN基础大模型被提出,它们在各大榜单上你追我赶,可以发现CV领域中CNN依旧有着一席之地。如果Transformer不能够在CV领域完全替代cnn神经网络,那么将两者的优势结合起来是否是更好的选择?因此,我们希望SMT可以作为Hybrid CNN-Transformer方向新的baseline,推动该领域的进步和发展。

稳定匹配策略提升Detection Transformer上限

本文指出在DETR中存在的不稳定的匹配问题是由多重优化路径导致的,而这个问题在DETR的one-to-one matching中会变得更加明显。我们表明仅需要在分类损失中引入了位置度量就可以很好的优化DETR中存在的不稳定匹配问题。并且基于这一原则,我们通过引入了位置度量信息提出了两个简单有效并且可以适用于所有DETR系列模型的position-supervised loss和position-modulated matching cost设计。此外,我们提出了密集memory融合来增强编码器和backbone的特征。

我们在一系列DETR模型上对我们的方法有效性进行了验证,其中我们的Stable-DINO以ResNet-50作为backbone的条件下在1x和2x标准settings下分别达到了50.4AP和51.5AP。并且我们的方法具有足够强大的scalability,使用Swin-Large和Focal-Huge backbone的条件下Stable-DINO在COCO test-dev上分别达到了63.8AP和64.8AP的准确率。

image.png

虽然我们的方法表现出了很好的性能,但我们只在类似 DETR 的图像对象检测和分割上验证它。诸如 3D 对象检测之类的更多探索将作为我们未来的工作。此外,我们只关注损失和匹配中的分类部分,而保留定位部分。对定位部分的分析也留作我们未来的工作。


针对图像复原模型的指纹保护技术

深度学习已经成为解决计算机视觉问题的一个突出工具,在开源社区中共享预先训练的DNN模型已经成为一种常见做法,许多公司和机构也提供付费的商用预训练模型服务。这为不法使用者抄袭/窃取模型创造了强烈动机,例如使用恶意软件感染或内部泄漏等方法来规避昂贵的训练过程。因此,社区和公司都有强烈需求来保护其DNN模型的知识产权。保护DNN模型知识产权的一种流行方案是模型数字水印,它会侵入地嵌入被称之为水印的特定信息到源模型中,并检查该水印在可疑模型中的存在。然而,侵入式嵌入会修改模型权重,进而可能会影响模型的效用,在实践中变得不那么理想。

最近,一种非侵入式的方法称为模型指纹技术受到了关注。与模型水印不同,指纹技术不会修改模型任何参数,其从模型中提取出称为指纹的唯一特征来识别其所有权。通过比较源模型的指纹与可疑模型的指纹来验证模型的所有权。现存的深度模型指纹方案大部分仅聚焦在图像分类问题上,如使用决策边界点作为指纹,针对深度图像复原网络的指纹方案尚未发表。图像复原模型的应用已然十分广泛,如图像去噪、超分辨率、去模糊等。因此,为探究图像复原任务中的非侵入式模型保护方法,我们首次提出了一种针对深度图像复原模型的指纹方案。

如下图所示,我们方法整体步骤如下:

  • Step1. 对源模型提取指纹;
  • Step2. 对可疑模型提取指纹,可疑模型可能是违规获取的被攻击模型,也可能是无关的清白模型,指纹验证的目的是能够区分两者;
  • Step3. 验证两组指纹的相似性,通过对两组指纹分别做特征提取,并根据在特征与统计层面上计算的偷窃概率来进行判断。

image.png

指纹提取的思路主要是基于模型反演的思想,固定模型优化图像,找出一张恰好使得模型复原难度均衡的临界图像,图示如下:

image.png

image.png

方案优缺点

对比模型水印方案,我们指纹方案最大的优点在于完全不会改变深度图像复原网络的参数,进而不会对模型性能产生任何影响,同时经实验验证能够抵御常见的模型攻击手段。但目前我们的指纹验证方案需要获取模型的梯度信息,也就是说对比之前的黑盒水印验证流程,验证方需要具备更高的权限。因此,优化验证阶段也将成为我们未来的方向。

算法开源

为了更好地服务开源社区,上述两个算法的源代码已经开源。另外,我们正在开发PAI上轻松训练推理部署上述算法的框架,大概会在10月推出,敬请期待。

Github地址:

https://github.com/AFeng-x/SMT

modelscope地址:

https://modelscope.cn/models/PAI/SMT/summary



阿里云机器学习平台 PAI 多篇论文入选 ICCV 2023

论文标题:

Scale-Aware Modulation Meet Transformer

论文作者:

林炜丰、吴梓恒、陈佳禹、黄俊、金连文

论文PDF链接:

https://arxiv.org/pdf/2307.08579.pdf

● 论文标题:

Detection Transformer with Stable Matching

论文作者:

刘世隆、任天和、陈佳禹、曾兆阳、张浩、李峰、李弘洋、黄俊、苏航、朱军、张磊

论文PDF链接:

https://arxiv.org/pdf/2304.04742.pdf

论文标题:

Fingerprinting Deep Image Restoration Models

论文作者:

全宇晖、滕寰、许若涛、黄俊、纪辉

论文PDF链接:

https://csyhquan.github.io/manuscript/23-iccv-Fingerprinting%20Deep%20Image%20Restoration%20Models.pdf

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
6月前
|
PyTorch 调度 算法框架/工具
阿里云PAI-DLC任务Pytorch launch_agent Socket Timeout问题源码分析
DLC任务Pytorch launch_agent Socket Timeout问题源码分析与解决方案
348 18
阿里云PAI-DLC任务Pytorch launch_agent Socket Timeout问题源码分析
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
阿里云人工智能平台 PAI 开源 EasyDistill 框架助力大语言模型轻松瘦身
本文介绍了阿里云人工智能平台 PAI 推出的开源工具包 EasyDistill。随着大语言模型的复杂性和规模增长,它们面临计算需求和训练成本的障碍。知识蒸馏旨在不显著降低性能的前提下,将大模型转化为更小、更高效的版本以降低训练和推理成本。EasyDistill 框架简化了知识蒸馏过程,其具备多种功能模块,包括数据合成、基础和进阶蒸馏训练。通过数据合成,丰富训练集的多样性;基础和进阶蒸馏训练则涵盖黑盒和白盒知识转移策略、强化学习及偏好优化,从而提升小模型的性能。
|
6月前
|
缓存 并行计算 测试技术
阿里云PAI-全模态模型Qwen2.5-Omni-7B推理浅试
阿里云PAI-全模态模型Qwen2.5-Omni-7B推理浅试
1514 12
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
云上一键部署通义千问 QwQ-32B 模型,阿里云 PAI 最佳实践
3月6日阿里云发布并开源了全新推理模型通义千问 QwQ-32B,在一系列权威基准测试中,千问QwQ-32B模型表现异常出色,几乎完全超越了OpenAI-o1-mini,性能比肩Deepseek-R1,且部署成本大幅降低。并集成了与智能体 Agent 相关的能力,够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。阿里云人工智能平台 PAI-Model Gallery 现已经支持一键部署 QwQ-32B,本实践带您部署体验专属 QwQ-32B模型服务。
|
7月前
|
人工智能 自然语言处理 运维
Qwen3 全尺寸模型支持通过阿里云PAI-ModelGallery 一键部署
Qwen3 是 Qwen 系列最新一代的大语言模型,提供了一系列密集(Dense)和混合专家(MOE)模型。目前,PAI 已经支持 Qwen3 全系列模型一键部署,用户可以通过 PAI-Model Gallery 快速开箱!
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。
529 14
|
机器学习/深度学习 算法 数据可视化
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
498 1
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
|
机器学习/深度学习 数据采集 算法
解码癌症预测的密码:可解释性机器学习算法SHAP揭示XGBoost模型的预测机制
解码癌症预测的密码:可解释性机器学习算法SHAP揭示XGBoost模型的预测机制
1021 0
|
机器学习/深度学习 数据采集 监控
机器学习-特征选择:如何使用递归特征消除算法自动筛选出最优特征?
机器学习-特征选择:如何使用递归特征消除算法自动筛选出最优特征?
1867 0

热门文章

最新文章

相关产品

  • 人工智能平台 PAI