CV领域再创佳绩!阿里云机器学习平台 PAI 多篇论文入选 ICCV 2023

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 近期,阿里云机器学习平台PAI发表的多篇论文在ICCV 2023上入选。ICCV是国际计算机视觉大会是由电气和电子工程师协会每两年举办一次的研究大会。与CVPR和ECCV一起,它被认为是计算机视觉领域的顶级会议之一。ICCV 2023将于10月2日至10月6日法国巴黎举办。ICCV汇聚了来自世界各地的学者、工程师和研究人员,分享最新的计算机视觉研究成果和技术进展。会议涵盖了计算机视觉领域的各个方向,包括图像处理、模式识别、机器学习、人工智能等等。ICCV的论文发表和演讲都备受关注,是计算机视觉领域交流和合作的重要平台。

近期,阿里云机器学习平台PAI发表的多篇论文在ICCV 2023上入选。ICCV是国际计算机视觉大会是由电气和电子工程师协会每两年举办一次的研究大会。与CVPR和ECCV一起,它被认为是计算机视觉领域的顶级会议之一。ICCV 2023将于10月2日至10月6日法国巴黎举办。ICCV汇聚了来自世界各地的学者、工程师和研究人员,分享最新的计算机视觉研究成果和技术进展。会议涵盖了计算机视觉领域的各个方向,包括图像处理、模式识别、机器学习、人工智能等等。ICCV的论文发表和演讲都备受关注,是计算机视觉领域交流和合作的重要平台。

阿里云PAI总共有3篇文章入选ICCV 2023,其中阿里云与华南理工大学联合培养项目产出了基础模型SMT和图像复原模型的指纹保护技术两篇文章,阿里云与IDEA-CVR张磊团队合作产出了目标检测Stable DINO一篇文章。此次3篇文章入选ICCV 2023,意味着阿里云PAI在国际计算机视觉领域进一步提升了影响力。


论文简述

当尺度感知调制遇上Transformer

近年来,基于Transformer和CNN的视觉基础模型取得巨大成功。有许多研究进一步地将Transformer结构与CNN架构结合,设计出了更为高效的hybrid CNN-Transformer Network,但它们的精度仍然不尽如意。本文介绍了一种新的基础模型SMT(Scale-Aware Modulation Transformer),它以更低的参数量(params)和计算量(flops)取得了大幅性能的提升。

不同于其他CNN-Transformer结合的方案,SMT基于卷积计算设计了一个新颖的轻量尺度感知调制单元Scale-Aware Modulation(SAM),它能够捕捉多尺度特征的同时扩展感受野,进一步增强卷积调制能力。此外,SMT提出了一种进化混合网络Evolutionary Hybrid Network(EHN),它能够有效地模拟网络从浅层变深时捕捉依赖关系从局部到全局的转变,从而实现更优异的性能。在ImagNet、COCO以及ADE20k等任务上都验证了该模型的有效性。值得一提的是,SMT在ImageNet-22k上预训练后以仅仅80.5M的参数量在ImageNet-1k上达到了88.1%的精度。

image.png

image.png

总的来说,在视觉基础模型backbone的探索路程中,我们有着对未来的展望:

  • 以视觉Transformer为例,除了在自监督学习等预训练中依旧用着ViT这种plain Vision Transformer,大部分视觉基础模型都以Swin和PvT这种Hierarchical架构为基础设计范式。而这种范式需要解决的问题就是如何在浅层stage中设计更高效的注意力机制计算来解决自注意力的二次复杂性带来的计算负担。是否有更优秀的计算模块能够代替SAM或者是MSA是我们后续需要继续探索的路。
  • 2023年,更多的视觉Transformer模型和CNN基础大模型被提出,它们在各大榜单上你追我赶,可以发现CV领域中CNN依旧有着一席之地。如果Transformer不能够在CV领域完全替代cnn神经网络,那么将两者的优势结合起来是否是更好的选择?因此,我们希望SMT可以作为Hybrid CNN-Transformer方向新的baseline,推动该领域的进步和发展。

稳定匹配策略提升Detection Transformer上限

本文指出在DETR中存在的不稳定的匹配问题是由多重优化路径导致的,而这个问题在DETR的one-to-one matching中会变得更加明显。我们表明仅需要在分类损失中引入了位置度量就可以很好的优化DETR中存在的不稳定匹配问题。并且基于这一原则,我们通过引入了位置度量信息提出了两个简单有效并且可以适用于所有DETR系列模型的position-supervised loss和position-modulated matching cost设计。此外,我们提出了密集memory融合来增强编码器和backbone的特征。

我们在一系列DETR模型上对我们的方法有效性进行了验证,其中我们的Stable-DINO以ResNet-50作为backbone的条件下在1x和2x标准settings下分别达到了50.4AP和51.5AP。并且我们的方法具有足够强大的scalability,使用Swin-Large和Focal-Huge backbone的条件下Stable-DINO在COCO test-dev上分别达到了63.8AP和64.8AP的准确率。

image.png

虽然我们的方法表现出了很好的性能,但我们只在类似 DETR 的图像对象检测和分割上验证它。诸如 3D 对象检测之类的更多探索将作为我们未来的工作。此外,我们只关注损失和匹配中的分类部分,而保留定位部分。对定位部分的分析也留作我们未来的工作。


针对图像复原模型的指纹保护技术

深度学习已经成为解决计算机视觉问题的一个突出工具,在开源社区中共享预先训练的DNN模型已经成为一种常见做法,许多公司和机构也提供付费的商用预训练模型服务。这为不法使用者抄袭/窃取模型创造了强烈动机,例如使用恶意软件感染或内部泄漏等方法来规避昂贵的训练过程。因此,社区和公司都有强烈需求来保护其DNN模型的知识产权。保护DNN模型知识产权的一种流行方案是模型数字水印,它会侵入地嵌入被称之为水印的特定信息到源模型中,并检查该水印在可疑模型中的存在。然而,侵入式嵌入会修改模型权重,进而可能会影响模型的效用,在实践中变得不那么理想。

最近,一种非侵入式的方法称为模型指纹技术受到了关注。与模型水印不同,指纹技术不会修改模型任何参数,其从模型中提取出称为指纹的唯一特征来识别其所有权。通过比较源模型的指纹与可疑模型的指纹来验证模型的所有权。现存的深度模型指纹方案大部分仅聚焦在图像分类问题上,如使用决策边界点作为指纹,针对深度图像复原网络的指纹方案尚未发表。图像复原模型的应用已然十分广泛,如图像去噪、超分辨率、去模糊等。因此,为探究图像复原任务中的非侵入式模型保护方法,我们首次提出了一种针对深度图像复原模型的指纹方案。

如下图所示,我们方法整体步骤如下:

  • Step1. 对源模型提取指纹;
  • Step2. 对可疑模型提取指纹,可疑模型可能是违规获取的被攻击模型,也可能是无关的清白模型,指纹验证的目的是能够区分两者;
  • Step3. 验证两组指纹的相似性,通过对两组指纹分别做特征提取,并根据在特征与统计层面上计算的偷窃概率来进行判断。

image.png

指纹提取的思路主要是基于模型反演的思想,固定模型优化图像,找出一张恰好使得模型复原难度均衡的临界图像,图示如下:

image.png

image.png

方案优缺点

对比模型水印方案,我们指纹方案最大的优点在于完全不会改变深度图像复原网络的参数,进而不会对模型性能产生任何影响,同时经实验验证能够抵御常见的模型攻击手段。但目前我们的指纹验证方案需要获取模型的梯度信息,也就是说对比之前的黑盒水印验证流程,验证方需要具备更高的权限。因此,优化验证阶段也将成为我们未来的方向。

算法开源

为了更好地服务开源社区,上述两个算法的源代码已经开源。另外,我们正在开发PAI上轻松训练推理部署上述算法的框架,大概会在10月推出,敬请期待。

Github地址:

https://github.com/AFeng-x/SMT

modelscope地址:

https://modelscope.cn/models/PAI/SMT/summary



阿里云机器学习平台 PAI 多篇论文入选 ICCV 2023

论文标题:

Scale-Aware Modulation Meet Transformer

论文作者:

林炜丰、吴梓恒、陈佳禹、黄俊、金连文

论文PDF链接:

https://arxiv.org/pdf/2307.08579.pdf

● 论文标题:

Detection Transformer with Stable Matching

论文作者:

刘世隆、任天和、陈佳禹、曾兆阳、张浩、李峰、李弘洋、黄俊、苏航、朱军、张磊

论文PDF链接:

https://arxiv.org/pdf/2304.04742.pdf

论文标题:

Fingerprinting Deep Image Restoration Models

论文作者:

全宇晖、滕寰、许若涛、黄俊、纪辉

论文PDF链接:

https://csyhquan.github.io/manuscript/23-iccv-Fingerprinting%20Deep%20Image%20Restoration%20Models.pdf

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
5月前
|
人工智能 调度 芯片
PAI训练服务:云上大模型训练新篇章
本文介绍了通用AI时代下的新训练方法及PAI平台的优化。随着大模型时代的到来,算力需求激增,硬件和网络通信成为瓶颈。PAI平台通过自动容错、3D健康检测等技术确保训练稳定性;通过资源配额、智能调度等提高性价比;并推出PAI-TorchAcc和PAI-ChatLearn两大引擎,分别实现高效训练加速和灵活的对齐训练,显著提升训练性能与效果。这些改进解决了大规模AI训练中的关键问题,提升了效率和稳定性。
|
6月前
|
人工智能 JSON 算法
魔搭支持在阿里云人工智能平台PAI上进行模型训练、部署了!
现在,魔搭上的众多模型支持在阿里云人工智能平台PAI-Model Gallery上使用阿里云算力资源进行模型训练和部署啦!
417 22
|
5月前
|
人工智能 容灾 Serverless
AI推理新纪元,PAI全球化模型推理服务的创新与实践
本次分享主题为“AI推理新纪元,PAI全球化模型推理服务的创新与实践”,由阿里云高级产品经理李林杨主讲。内容涵盖生成式AI时代推理服务的变化与挑战、play IM核心引擎的优势及ES专属网关的应用。通过LM智能路由、多模态异步生成等技术,PAI平台实现了30%以上的成本降低和显著性能提升,确保全球客户的业务稳定运行并支持异地容灾,目前已覆盖16个地域,拥有10万张显卡的推理集群。
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
阿里云人工智能平台 PAI 团队发表的图像编辑算法论文在 MM2024 上正式亮相发表。ACM MM(ACM国际多媒体会议)是国际多媒体领域的顶级会议,旨在为研究人员、工程师和行业专家提供一个交流平台,以展示在多媒体领域的最新研究成果、技术进展和应用案例。其主题涵盖了图像处理、视频分析、音频处理、社交媒体和多媒体系统等广泛领域。此次入选标志着阿里云人工智能平台 PAI 在图像编辑算法方面的研究获得了学术界的充分认可。
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
【EMNLP2024】阿里云人工智能平台 PAI 多篇论文入选 EMNLP2024
阿里云人工智能平台 PAI 的多篇论文在 EMNLP2024 上入选。论文成果是阿里云与华南理工大学金连文教授团队、复旦大学王鹏教授团队共同研发。EMNLP 是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究,尤其重视自然语言处理的实证研究。该会议曾推动了预训练语言模型、文本挖掘、对话系统、机器翻译等自然语言处理领域的核心创新,在学术和工业界都有巨大的影响力。此次入选标志着阿里云人工智能平台 PAI 在自然语言处理和多模态算法能力方面研究获得了学术界认可。
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI产品使用合集之机器学习PAI的学习方法不知道如何解决
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
10月前
|
机器学习/深度学习 存储 人工智能
【ACL2024】阿里云人工智能平台PAI多篇论文入选ACL2024
近期,阿里云人工智能平台PAI的多篇论文在ACL2024上入选。论文成果是阿里云与阿里集团安全部、华南理工大学金连文教授团队、华东师范大学何晓丰教授团队共同研发。ACL(国际计算语言学年会)是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究。该会议曾推动了预训练语言模型、文本挖掘、对话系统、机器翻译等自然语言处理领域的核心创新,在学术和工业界都有巨大的影响力。此次入选标志着阿里云人工智能平台PAI在自然语言处理和多模态算法、算法框架能力方面研究获得了学术界认可。
|
11月前
|
机器学习/深度学习 人工智能 分布式计算
阿里云人工智能平台PAI论文入选OSDI '24
阿里云人工智能平台PAI的论文《Llumnix: Dynamic Scheduling for Large Language Model Serving》被OSDI '24录用。论文通过对大语言模型(LLM)推理请求的动态调度,大幅提升了推理服务质量和性价比。
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
基于PAI-QuickStart搭建一站式模型训练服务体验
【8月更文挑战第5天】基于PAI-QuickStart搭建一站式模型训练服务体验
278 0

相关产品

  • 人工智能平台 PAI