AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架(1)

简介: AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架


机器之心专栏机器之心编辑部

本文介绍被机器学习顶级国际会议 AAAI 2023 接收的论文 《Improving Training and Inference of Face Recognition Models via Random Temperature Scaling》。论文创新性地从概率视角出发,对分类损失函数中的温度调节参数和分类不确定度的内在关系进行分析,揭示了分类损失函数的温度调节因子是服从 Gumbel 分布的不确定度变量的尺度系数。从而提出一个新的被叫做 RTS 的训练框架对特征抽取的可靠性进行建模。基于 RTS 训练框架来训练更可靠的识别模型,使训练过程更加稳定,并在部署时提供一个对样本不确定度的度量分值,以拒识高不确定的样本,帮助建立更鲁棒的视觉识别系统。大量的实验表明 RTS 可以稳定训练并输出不确定度度量值来建立鲁棒的视觉识别系统。




背景
不确定性问题:视觉识别系统在真实场景中通常会遇到多种干扰。例如:遮挡(装饰物或者复杂的前景),成像模糊(焦点模糊或者运动模糊),极端光照(过曝或者曝光不足等)。可以把这些干扰都归纳为噪声的影响,此外还有误检图片,通常有猫脸或狗脸等,这些误检测的数据被称作 out-of-distribution(OOD)数据。对于视觉识别来说,上述的噪声和 OOD 数据都构成了不确定性的来源,受到影响的样本会在基于深度模型提取的特征上叠加不确定性,给视觉识别系统带来干扰。例如若底库图被不确定干扰的样本污染,会形成 “特征黑洞”,给视觉识别系统带来隐患。因此需要对表征可靠性进行建模。

表征可靠性建模相关工作

传统多模型解法

传统的在视觉识别链路中对可靠性进行控制的方法是通过一个独立的质量模型完成的。典型的图像质量建模的方式如下:

1、收集标注数据进行具体影响质量因素的标注,比如清晰度如何,有无遮挡以及姿态如何。2、根据影响因素的标注 label 进行和 1~10 质量分的映射,分数越高对应的质量越好,具体示例可以参考下图左侧示例。3、由前两步操作得到质量分的标注后进行有序回归训练,从而在部署阶段对质量分进行预测,如下图右侧示例。


独立质量模型的方案在视觉识别的链路中需引入新的模型,且训练依赖标注信息。

DUL

不确定度建模的方法有「Data Uncertainty Learning in Face Recognition」,把特征建模为高斯分布均值和方差的加和,把包含不确定性的特征送入之后的分类器进行训练。从而可以在部署阶段得到和图像质量相关的不确定度的分值。


DUL 用加和的方式描述不确定度,噪声估计值的尺度也和某一类数据的特征分布紧密程度相关。如果数据分布是比较紧密的,那么 DUL 估计出的噪声的尺度也是比较小的。在 OOD 领域的工作指出,数据分布的密度对于 OOD 识别来说不是一个好的度量方式。

GODIN

OOD 领域的工作「Generalized odin: Detecting out-of-distribution image without learning from out-of-distribution data」用联合概率分布的形式处理 OOD 数据,分别用两个独立的分支 h(x) 和 g(x) 估计分类概率值和温度调节值。


由于温度值被建模为概率值,范围被限制在 0-1 之间,对温度没有进行更好的建模。


相关文章
|
18天前
|
机器学习/深度学习 自然语言处理 计算机视觉
CVPR 2024:生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题
【4月更文挑战第14天】中山大学和微信团队的研究者提出 SingDiffusion,一种解决扩散模型在处理极端亮度图像时的平均亮度问题的新方法。SingDiffusion 可无缝集成到预训练模型中,无需额外训练,通过处理 t=1 时间步长的采样问题,改善了图像生成的亮度偏差。在 COCO 数据集上的实验显示,相较于现有模型,SingDiffusion 在 FID 和 CLIP 分数上表现更优。
24 7
CVPR 2024:生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题
|
12月前
|
人工智能 达摩院 算法
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架(3)
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架
145 0
|
12月前
|
人工智能 达摩院 算法
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架(2)
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架
145 0
|
12月前
|
机器学习/深度学习 算法 数据可视化
CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey
CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey
242 0
|
12月前
|
机器学习/深度学习 人工智能 运维
ECCV 2022 Oral | 无需微调即可推广,上交大、上海人工智能实验室等提出基于配准的少样本异常检测框架
ECCV 2022 Oral | 无需微调即可推广,上交大、上海人工智能实验室等提出基于配准的少样本异常检测框架
100 0
|
12月前
|
机器学习/深度学习 人工智能 算法
“几何构象增强AI算法”,百度生物计算最新研究成果登上《Nature》子刊
“几何构象增强AI算法”,百度生物计算最新研究成果登上《Nature》子刊
148 0
|
12月前
|
机器学习/深度学习 人工智能
模型进化狂飙,DetectGPT能否识别最新模型生成结果?(1)
模型进化狂飙,DetectGPT能否识别最新模型生成结果?
125 0
|
12月前
|
算法 测试技术 数据安全/隐私保护
模型进化狂飙,DetectGPT能否识别最新模型生成结果?(2)
模型进化狂飙,DetectGPT能否识别最新模型生成结果?
|
编解码 算法 视频直播
CVPR2022 前沿研究成果解读:基于生成对抗网络的深度感知人脸重演算法
《基于生成对抗网络的深度感知人脸重演算法 》(Depth-Aware Generative Adversarial Network for Talking Head Video Generation)
942 0
CVPR2022 前沿研究成果解读:基于生成对抗网络的深度感知人脸重演算法
|
机器学习/深度学习 人工智能 自然语言处理
CVPR oral解读:医疗AI最新进展,可媲美人类医师推理能力的图像检测算法
疫情让大众更加关注医疗健康。而在刚刚过去的CVPR2020中,也有很多医学方面的研究工作。深睿医疗就有四篇论文入选,其中三篇为oral,其论文涵盖了医疗图像识别,姿态估计等多个主题,在医疗AI方面取得了优异的成绩。
601 0
CVPR oral解读:医疗AI最新进展,可媲美人类医师推理能力的图像检测算法