AAAI 2021 | 华为诺亚方舟实验室AI&上交大叶南阳提出算法DecAug,面向多维度非独立同分布域泛化问题

简介: 华为诺亚方舟实验室AI理论团队和上海交通大学叶南阳联合提出一种面向多维度非独立同分布域泛化问题的算法DecAug 。

华为诺亚方舟实验室AI理论团队和上海交通大学叶南阳联合提出一种面向多维度非独立同分布域泛化问题的算法DecAug 《DecAug: Out-of-Distribution Generalization via Decomposed Feature Representation and Semantic Augmentation》,已在AAAI 2021 (论文地址: https://arxiv.org/pdf/2012.09382)发表。


该工作首次将此前联系较少的数个领域,如Domain generalization, stable learning, causal inference统一在Out-of-Distribution (OoD) 的问题背景下,揭示了机器学习中受到广泛关注的不同领域方向的内在联系,提出了第一种同时在几个领域都取得SOTA性能的方法。


研究背景


传统的机器学习算法,通常假设训练样本和测试样本来自同一概率分布 Independent and Identically Distributed (IID)。但是对于 Out-of-Distribution (OoD)场景,即训练样本的概率分布和测试样本的概率分布不同的情况,训练出的模型很难在目标域取得良好的表现。如何设计出一种通用的OoD泛化框架是一项具有挑战性的任务,这主要是由于在现实生活中广泛存在的correlation shift和diversity shift问题。大多数以前的方法只能处理单一维度的OoD问题,例如跨域偏移或相关性外推,这限制了其在实际场景中的广泛应用。

90.jpg


图1:不同的数据集存在两种维度OoD问题:Correlation shift 和 Diversity shift。实验表明现有的许多OoD算法只能处理好单一维度的OoD问题。


因此,本文提出了基于特征分解和语义增广的方法DecAug,来处理多维度非独立同分布数据的问题,同时可以泛化到未知目标域的情况。具体地,首先在特征层面分解高维表征,基于损失函数梯度正交的正则化方式分解类别相关与语境相关的高维向量。针对语境相关的特征,利用基于梯度的增广机制,在特征层面生成新语境的样本,从而增强模型的域泛化性能。


方法概述

91.jpg

图2:DecAug框架:输入的图片首先通过骨干网络提取特征,基于损失函数梯度正交的正则化方式,高维表征被分解为类别相关和语境相关的两个分支。基于梯度的语义增广机制作用于语境相关分支,在特征层面生成新语境样本。


特征分解:


92.png

数据增广:


DecAug针对语境相关特征进行数据增广的操作来减轻分布偏差带来的影响。在语义特征空间存在着多个不同的分布偏差方向。为了确保在不同的环境中都有好的效果,本文针对OoD泛化的最差场景,通过在特征空间生成对抗扰动的样本来进行数据增广操作和训练模型。具体来说,DecAug对语境相关的特征进行语义增广操作:


93.png

随机梯度优化算法可以被用来优化所提到的目标函数。


实验验证


我们在公开数据集PACS,Colored MNIST和NICO上验证DecAug算法,对比其他的OoD generalization算法。


准确性:

94.jpg


从上图实验结果可以看出,相比于风险正则化方法(e.g., Rex, IRM) 以及典型的域泛化方法比如 (e.g., JiGen), 通过基于损失函数梯度正交的正则化方式以及语义增广机制,DecAug算法在不同数据集上均取得最优表现。


消融分析


95.png

上图展示了在PACS数据集上基于损失函数梯度正交正则化方式对模型的贡献度。without orth loss 表示不使用损失函数梯度正交,下面三行是不同的正则化强度。从结果可见,使用基于损失函数梯度正交的正则化方式可以带来OoD泛化性能的提升。


96.jpg

上图展示了DecAug在PACS数据集上不同变体的性能表现。可以看到,直接地融合DecAug 和DANN对抗损失,效果提升有限。另外,将正交正则化限制直接作用于特征,甚至可能带来负向提升。由此可见,DecAug的两分支结构及针对语境特征的对抗增广机制有助于提升模型的OoD泛化性能。


模型可视化:

97.jpg

上图可视化了两个分支的梯度注意力分布,考察模型的可解释性。第一行是在PACS数据集随机选出的4种类别8个图片,下面两行分别是对应的类别分支及语境分支的注意力。可以看到,类别分支注意力会更关注在前景部分,而语境分支会同时对包含域信息的不同背景语境敏感,说明DecAug有效分解了类别相关及语境相关的高维特征。


总结


本文提出了一种基于特征分解和语义增广面向多维度OoD泛化问题的模型DecAug。基于损失函数梯度正交的正则化方式,DecAug将输入数据在特征层面分解为类别相关及语境相关的特征,来处理训练数据与测试数据之间的分布偏差。基于梯度的语义增广机制作用于语境相关分支来提升模型的OoD泛化性能。DecAug在三个公开数据集上均呈现出比之前的基于风险最小化正则及传统域适应算法更好的OoD泛化性能。


相关文章
|
8月前
|
人工智能 算法 搜索推荐
电商API的“AI革命”:全球万亿市场如何被算法重新定义?
AI+电商API正引领智能商业变革,通过智能推荐、动态定价与自动化运营三大核心场景,大幅提升转化率、利润率与用户体验。2025年,75%电商API将具备个性化能力,90%业务实现智能决策,AI与API的深度融合将成为未来电商竞争的关键基石。
|
11月前
|
人工智能 自然语言处理 算法
阿里云 AI 搜索开放平台:从算法到业务——AI 搜索驱动企业智能化升级
本文介绍了阿里云 AI 搜索开放平台的技术的特点及其在各行业的应用。
1090 3
|
6月前
|
机器学习/深度学习 人工智能 算法
当AI提示词遇见精密算法:TimeGuessr如何用数学魔法打造文化游戏新体验
TimeGuessr融合AI与历史文化,首创时间与空间双维度评分体系,结合分段惩罚、Haversine距离计算与加权算法,辅以连击、速度与完美奖励机制,实现公平且富挑战性的游戏体验。
|
人工智能 编解码 算法
DeepSeek加持的通义灵码2.0 AI程序员实战案例:助力嵌入式开发中的算法生成革新
本文介绍了通义灵码2.0 AI程序员在嵌入式开发中的实战应用。通过安装VS Code插件并登录阿里云账号,用户可切换至DeepSeek V3模型,利用其强大的代码生成能力。实战案例中,AI程序员根据自然语言描述快速生成了C语言的base64编解码算法,包括源代码、头文件、测试代码和CMake编译脚本。即使在编译错误和需求迭代的情况下,AI程序员也能迅速分析问题并修复代码,最终成功实现功能。作者认为,通义灵码2.0显著提升了开发效率,打破了编程语言限制,是AI编程从辅助工具向工程级协同开发转变的重要标志,值得开发者广泛使用。
9098 71
DeepSeek加持的通义灵码2.0 AI程序员实战案例:助力嵌入式开发中的算法生成革新
|
11月前
|
机器学习/深度学习 人工智能 JSON
这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现
Paper2Code是由韩国科学技术院与DeepAuto.ai联合开发的多智能体框架,通过规划、分析和代码生成三阶段流程,将机器学习论文自动转化为可执行代码仓库,显著提升科研复现效率。
1377 19
这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现
|
12月前
|
人工智能 算法 数据处理
算法为舟 思想为楫:AI时代,创作何为?
本文探讨了AI时代创作领域的变革与挑战,分析了人类创作者的独特价值,并展望了未来创作的新图景。随着生成式AI技术的发展,创作的传统认知被颠覆,评价体系面临革新。然而,人类创作者凭借批判性思维、情感智能、创意直觉和伦理自觉,依然具有不可替代的价值。文章呼吁创作者转变思维,从竞争走向合作,提升复合能力,关注作品的社会影响,并持续学习进化。在AI助力下,创作将更加民主化、多样化,推动文明进步。最终,人机协同或将成为未来创作的核心模式,共同开创文化发展的新纪元。
|
11月前
|
存储 人工智能 运维
AI to B奇点将至,“伙伴+华为”体系如何跨越数智鸿沟?
硅谷投资人Tom Davidson认为AI爆炸可能率先发生在中国,强调智能爆炸更可能出现在愿意将AI推至极致的人群中。华为在2025合作伙伴大会上提出,大模型推理爆发为企业智能化铺平道路,AI to B的奇点已至。华为与伙伴共建开放体系,“伙伴+华为”模式持续壮大,2024年政企业务增长超25%。未来将强化服务能力,构建以客户为中心的生态,助力千行万业跨越数智鸿沟,推动价值创造范式跃迁。
203 1
|
12月前
|
人工智能 监控 算法
Python下的毫秒级延迟RTSP|RTMP播放器技术探究和AI视觉算法对接
本文深入解析了基于Python实现的RTSP/RTMP播放器,探讨其代码结构、实现原理及优化策略。播放器通过大牛直播SDK提供的接口,支持低延迟播放,适用于实时监控、视频会议和智能分析等场景。文章详细介绍了播放控制、硬件解码、录像与截图功能,并分析了回调机制和UI设计。此外,还讨论了性能优化方法(如硬件加速、异步处理)和功能扩展(如音量调节、多格式支持)。针对AI视觉算法对接,文章提供了YUV/RGB数据处理示例,便于开发者在Python环境下进行算法集成。最终,播放器凭借低延迟、高兼容性和灵活扩展性,为实时交互场景提供了高效解决方案。
921 5
|
数据采集 人工智能 编解码
算法系统协同优化,vivo与港中文推出BlueLM-V-3B,手机秒变多模态AI专家
BlueLM-V-3B是由vivo与香港中文大学共同研发的多模态大型语言模型,专为移动设备优化。它通过算法和系统协同优化,实现了高效部署和快速生成速度(24.4 token/s),并在OpenCompass基准测试中取得优异成绩(66.1分)。模型小巧,语言部分含27亿参数,视觉编码器含4000万参数,适合移动设备使用。尽管如此,低端设备可能仍面临资源压力,实际应用效果需进一步验证。论文链接:https://arxiv.org/abs/2411.10640。
512 9

热门文章

最新文章