详细解读 | Google与Waymo教你如何更好的训练目标检测模型!!!(附论文)(二)

简介: 详细解读 | Google与Waymo教你如何更好的训练目标检测模型!!!(附论文)(二)

3检测框架


3.1 RetinaNet-RS

检测Head

遵循标准的RetinaNet head设计。简而言之,在最终的预测层之前使用4个3×3特征维数为256的卷积层和分类子网。每个卷积层之后是一个BN层和一个SiLU。

卷积层在检测头的所有特征层中共享,而BN层不共享。作者设置anchor的长宽比为[1.0;2.0;0.5],并将基准anchor大小设置为3.0。focal loss参数α和γ分别设置为0.25和1.5。

特征提取

3.2 Cascade RCNN-RS

RPN Head

对于Cascade RCNN-RS,作者通常Cascade RCNN的实现。对于RPN head,作者在特征维数256处使用2个3×3卷积层,同时设计与RetinaNet相同的锚定框设置。作者用500个proposals进行训练,用1000个proposals进行推理。

Box回归Head

作者对box regression head使用2种设置,一种用于常规尺寸模型,另一种用于大尺寸模型。

对于常规尺寸的模型,作者实现了2个级联head,增加IoU阈值0.6和0.7。在最终的预测层之前,每个head在特征维度256处有4个3×3卷积层,在特征维度1024处有一个全连接层。

需要注意的是,为了获得良好的性能改进,必须使用与类无关的边界框回归。对于box regression head这里只预测了4个bounding box coordinates,而不是4个(类的数量)。

Instance segmentation head

在Instance segmentation head的最终预测层之前,作者在特征维度256处使用了4个3×3卷积层和1个3×3 stride=2反卷积层。

特征提取

作者首先使用常规大小的Cascade RCNN框架研究了ResNet-50/101/152/200模型族和EfficientNet B1到B7模型族的性能。

为了扩大基于ResNet的模型,作者使用表3中描述的缩放方法。扩大基于EfficientNet的模型。在ResNet和EfficientNet backbone上附加一个标准的FPN来提取P3到P7多尺度特征。

为了获得最好的性能,作者采用了SpineNet-143/143L backbone。SpineNet-143L backbone将SpineNet-143中所有卷积层的特征维度均匀地扩大了1.5倍。


4实验


4.1 速度与精度实验

4.2 输入分辨率的影响

4.3 后处理速度对比

4.4 SOTA实验


5参考


[1].Simple Training Strategies and Model Scaling for Object Detection

相关文章
|
10月前
|
人工智能 自然语言处理 API
Google Gemma 模型服务:开放的生成式 AI 模型服务
Google Gemma 模型服务:开放的生成式 AI 模型服务
278 4
|
10月前
|
定位技术 TensorFlow API
Google Earth Engine (GEE)——张量流水灾模型数据集(Sentinel-1)
Google Earth Engine (GEE)——张量流水灾模型数据集(Sentinel-1)
204 0
|
10月前
|
编解码 数据可视化 定位技术
Google Earth Engine(GEE)——NOAA海平面上升数字高程模型(DEMs)
Google Earth Engine(GEE)——NOAA海平面上升数字高程模型(DEMs)
163 1
|
10月前
|
机器学习/深度学习 算法 数据可视化
基于Google Earth Engine云平台构建的多源遥感数据森林地上生物量AGB估算模型含生物量模型应用APP
基于Google Earth Engine云平台构建的多源遥感数据森林地上生物量AGB估算模型含生物量模型应用APP
319 0
|
23天前
|
机器学习/深度学习 人工智能 JSON
知识蒸馏方法探究:Google Distilling Step-by-Step 论文深度分析
大型语言模型(LLM)的发展迅速,从简单对话系统进化到能执行复杂任务的先进模型。然而,这些模型的规模和计算需求呈指数级增长,给学术界和工业界带来了挑战。为解决这一问题,知识蒸馏技术应运而生,旨在将大型模型的知识转移给更小、更易管理的学生模型。Google Research 提出的“Distilling Step-by-Step”方法不仅减小了模型规模,还通过提取推理过程使学生模型在某些任务上超越教师模型。该方法通过多任务学习框架,训练学生模型同时预测标签和生成推理过程,从而实现更高效、更智能的小型化模型。这为资源有限的研究者和开发者提供了新的解决方案,推动了AI技术的普及与应用。
90 19
知识蒸馏方法探究:Google Distilling Step-by-Step 论文深度分析
|
7月前
|
机器学习/深度学习 数据采集 物联网
【机器学习】Google开源大模型Gemma2:原理、微调训练及推理部署实战
【机器学习】Google开源大模型Gemma2:原理、微调训练及推理部署实战
279 0
|
10月前
|
运维 监控 Serverless
一键开启 GPU 闲置模式,基于函数计算低成本部署 Google Gemma 模型服务
本文介绍如何使用函数计算 GPU 实例闲置模式低成本、快速的部署 Google Gemma 模型服务。
165052 58
|
9月前
|
人工智能 自然语言处理 机器人
[AI Google] 新的生成媒体模型和工具,专为创作者设计和构建
探索谷歌最新的生成媒体模型:用于高分辨率视频生成的 Veo 和用于卓越文本生成图像能力的 Imagen 3。还可以了解使用 Music AI Sandbox 创作的新演示录音。
[AI Google] 新的生成媒体模型和工具,专为创作者设计和构建
|
10月前
|
机器学习/深度学习 自然语言处理 对象存储
[wordpiece]论文分析:Google’s Neural Machine Translation System
[wordpiece]论文分析:Google’s Neural Machine Translation System
125 1
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
再超Transformer!Google提出两个新模型(Griffin、Hawk),强于Mamba,更省资源
【2月更文挑战第15天】再超Transformer!Google提出两个新模型(Griffin、Hawk),强于Mamba,更省资源
301 1
再超Transformer!Google提出两个新模型(Griffin、Hawk),强于Mamba,更省资源