一行预处理代码,让你的CV模型更强!Google research教你用可学习的resizer

简介: 图像预处理的一个重要操作就是resize,把不同大小的图像缩放到同一尺寸,但目前用到的resize技术仍然是老旧的,无法根据数据变换。Google Research提出一个可学习的resizer,只需在预处理部分略作修改,即可提升CV模型性能!

神经网络要求输入的数据的大小在每个mini-batch中是统一的,所以在做视觉任务的时候,一个重要的预处理步骤就是image resize,把它们调整到统一的大小进行训练。 通常缩放(image down-scaling)后的图像不会太大,因为如果分辨率过高会导致训练过程中模型占用的内存急剧上升,并且过高的分辨率也会导致训练速度和推理速度过慢。虽然近年来GPU的性能逐渐提升,但标准的输入图像仍然是224 × 224。 在大多数情况下,经过处理的图像的最终尺寸非常小,例如早期的deepfake生成的图片只有80 × 80的分辨率

60.jpg

在人脸数据集中,因为人脸很少有是正方形的,一张图片中的像素会浪费比较多的空间,可用的图像数据就更少了。 

61.jpg

目前最常用的图像大小调整方法包括最近邻(nearest neighbor)、双线性(bilinear)和双三次(bicubic)。这些resize方法的速度很快,可以灵活地集成在训练和测试框架中。 但这些传统方法是在深度学习成为视觉识别任务的主流解决方案之前几十年发展起来的,所以并不是特别适合新时代的深度学习模型。 Google Research提出了一种新的方法,通过改进数据集中的图像在预处理阶段缩放的方式,来提高基于图像的计算机视觉训练流程的效率和准确性。62.jpg图像大小对任务训练精度的影响并没有在模型训练中受到很大关注。为了提高效率,CV研究人员通常将输入图像调整到相对较小的空间分辨率(例如224x224) ,并在此分辨率下进行训练和推理。 研究人员想到,这些resizer是否限制了训练网络的任务性能呢?63.jpg通过一个简单的实验就可以证明当这些传统的resizer被可学习的resizer替代后,可以显著提高性能。 传统的resizer通常可以生成更好的视觉上的缩放图像,可学习的resizer对人来说可能不是特别容易看清楚。 64.jpg文中提出的resizer模型架构如下图所示:65.jpg它主要包括了两个重要的特性:(1) 双线性特征调整大小(bilinear feature resizing),以及(2)跳过连接(skip connection),该连接可容纳双线性调整大小的图像和CNN功能的组合。 第一个特性考虑到以原始分辨率计算的特征与模型的一致性。跳过连接可以简化学习过程,因为重定大小器模型可以直接将双线性重定大小的图像传递到基线任务中。 与一般的编码器-解码器架构不同,这篇论文中所提出的体系结构允许将图像大小调整为任何目标大小和纵横比。并且可学习的resizer性能几乎不依赖于双线性重定器的选择,这意味着它可以直接替换其他现成的方法。 并且这个的resizer模型相对较轻量级,不会向基线任务添加大量可训练参数,这些CNN明显小于其他基线模型。 论文中的实验主要分为三个部分。 1、分类性能。 将使用双线性调整器训练的模型和输出调整分辨率224×224称为默认基线。结果表明,在224×224分辨率的模型中,性能最好,使用文中提出的resizer训练的网络对性能有所提升。 与默认基线相比,DenseNet-121和MobileNet-v2基线分别显示出最大和最小的增益。对于Inception-v2、DenseNet-121和ResNet-50,提出的resizer的性能优于具有类似双线性重定器。66.jpg2、质量评估 研究人员使用3种不同的基线模型对AVA数据集进行训练。基线模型根据ImageNet上预先训练的权重进行初始化,并在AVA数据集上进行微调。resizer权重是随机初始化的。在这组实验中,使用双三次resizer为基线方法。通过平均基本真实分数和平均预测分数之间的相关性来衡量性能,相关性的评价采用使用皮尔逊线性相关系数(PLCC)和斯皮尔曼秩相关系数(SRCC)。 与基线模型相比,存在确定性的改进。此外,对于Inception-v2和DenseNet-121型号,文中提出的resizer性能优于双三次resizer。在更高的失败率下,对于学习型resizer来说,EfficientNet似乎是一个更难有所提升的基线模型。67.jpg3、泛化性 首先使用与resizer的默认基线不同的目标基线联合微调的可学习resizer。然后,度量目标基线在底层任务上的性能。可以观察到,对大约4个epoch的训练数据进行微调足以使resizer适应目标模型。这个验证是一个合理的指标,能够表明经过训练的resizer对各种体系结构的通用性如何。 由分类和IQA结果可知,每列显示resizer模型的初始化检查点,每行表示一个目标基线。这些结果表明,经过最少次的微调,就可以为一个基线训练的resizer可以有效地用于开发另一个基线的resizer。 在某些情况下,如DenseNet和MobileNet模型,微调的resizer实际上超过了通过随机初始化获得的分类性能。对于IQA的EffectiveNet模型也有同样的观察结果。 最后研究人员指出,这些实验专门针对图像识别任务进行了优化,并且在测试中,他们的 CNN驱动的可学习的resizer能够在这类任务中降低错误率。 未来也许考虑在其他图像任务中训练image resizer。 

相关文章
|
6月前
|
人工智能 自然语言处理 API
Google Gemma 模型服务:开放的生成式 AI 模型服务
Google Gemma 模型服务:开放的生成式 AI 模型服务
216 4
|
6月前
|
定位技术 TensorFlow API
Google Earth Engine (GEE)——张量流水灾模型数据集(Sentinel-1)
Google Earth Engine (GEE)——张量流水灾模型数据集(Sentinel-1)
150 0
|
6月前
|
传感器 编解码 数据处理
Open Google Earth Engine(OEEL)——哨兵1号数据的黑边去除功能附链接和代码
Open Google Earth Engine(OEEL)——哨兵1号数据的黑边去除功能附链接和代码
127 0
|
6月前
|
机器学习/深度学习 算法 数据可视化
基于Google Earth Engine云平台构建的多源遥感数据森林地上生物量AGB估算模型含生物量模型应用APP
基于Google Earth Engine云平台构建的多源遥感数据森林地上生物量AGB估算模型含生物量模型应用APP
222 0
|
6月前
|
运维 监控 Serverless
一键开启 GPU 闲置模式,基于函数计算低成本部署 Google Gemma 模型服务
本文介绍如何使用函数计算 GPU 实例闲置模式低成本、快速的部署 Google Gemma 模型服务。
164987 58
|
5月前
|
人工智能 自然语言处理 机器人
[AI Google] 新的生成媒体模型和工具,专为创作者设计和构建
探索谷歌最新的生成媒体模型:用于高分辨率视频生成的 Veo 和用于卓越文本生成图像能力的 Imagen 3。还可以了解使用 Music AI Sandbox 创作的新演示录音。
[AI Google] 新的生成媒体模型和工具,专为创作者设计和构建
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
再超Transformer!Google提出两个新模型(Griffin、Hawk),强于Mamba,更省资源
【2月更文挑战第15天】再超Transformer!Google提出两个新模型(Griffin、Hawk),强于Mamba,更省资源
267 1
再超Transformer!Google提出两个新模型(Griffin、Hawk),强于Mamba,更省资源
|
6月前
|
Web App开发 人工智能 JavaScript
从零写一个基于油猴脚本的 Google 辅助插件(文末附完整代码)
这是一个关于如何使用JavaScript和油猴脚本为Google搜索结果添加快捷键的功能介绍。作者首先阐述了想通过快捷键选择搜索结果的需求,然后选择了油猴插件作为开发平台。实现步骤包括:获取搜索结果列表、在结果前添加序号以及监听键盘事件触发点击。最后,作者还扩展了通过快捷键平滑滚动页面的功能,并分享了完整代码的GitHub链接。
95 0
从零写一个基于油猴脚本的 Google 辅助插件(文末附完整代码)
|
6月前
|
编解码 人工智能 算法
Google Earth Engine(GEE)——高度可扩展的时间自适应反射率融合模型(HISTARFM)数据库
Google Earth Engine(GEE)——高度可扩展的时间自适应反射率融合模型(HISTARFM)数据库
100 0
|
6月前
|
编解码
Google Earth Engine(GEE)——加拿大高分辨率数字高程模型(HRDEM)
Google Earth Engine(GEE)——加拿大高分辨率数字高程模型(HRDEM)
67 0

热门文章

最新文章