泛化神器 | BGN全方位解决因Batch Size大小问题所带来的训练不稳定(附论文下载)(二)

简介: 泛化神器 | BGN全方位解决因Batch Size大小问题所带来的训练不稳定(附论文下载)(二)

4. 实验


4.1、ImageNet上使用ResNet-50进行图像分类

通过以上可以看到,所提出的BGN在不同批处理规模下的性能优于之前所有的方法,包括BN、IN、LN、GN、PN和GBGN。

具体来说,BN在大批量下接近BGN的性能,然而,它的性能在小批量下迅速下降。GBGN是针对小批量尺寸提出的,但在批量尺寸为2时,其性能比BGN低4.24%,说明引入整个通道、高度和宽度尺寸来补偿噪声统计计算的重要性。在ImageNet分类上总体表现不佳。

LN、GN和PN的平均Top1精度分别为75.191%、76.073%和74.167%,而提出的BGN的平均Top1精度更高,为76.594%。

4.2、利用NAS对CIFAR-10进行图像分类

通过上表可以看到IN和LN不收敛,而BGN显著优于GN和PN,同时也优于BN。

通过上表可以看到IN、LN和PN的收敛性不强,而BGN的性能明显优于GN,BGN的性能略逊于BN。

因此,在神经结构搜索阶段使用BN作为归一化层比较具有优势

4.3、对抗性训练

在对抗网络的训练中,Robust精度比Clean精度更重要。PN存在收敛困难,不能收敛。BGN在一定范围内优于BN和IN,显著优于LN和GN。

4.4、少样本学习

可以看到,BGN略优于BN,但显著优于IN、LN、GN和PN,说明BGN在标签数据非常有限的情况下具有普遍性。

4.5、Office-31无监督领域适应实验

可以看到,BGN在大多数适应任务中优于其他归一化层,特别是wa,准确率提高了1.6%。

参考

[1].Batch Group Normalization

相关文章
|
数据采集 机器学习/深度学习 编解码
MMdetection框架速成系列 第02部分:整体算法流程+模型搭建流程+detection训练与测试核心组件+训练部分与测试部分的核心算法
众所周知,目标检测算法比较复杂,细节比较多,难以复现,而我们推出的 MMDetection 开源框架则希望解决上述问题。目前 MMdetection 已经复现了大部分主流和前沿模型,例如 Faster R-CNN 系列、Mask R-CNN 系列、YOLO 系列和比较新的 DETR 等等,模型库非常丰富,star 接近 13k,在学术研究和工业落地中应用非常广泛。
1609 0
|
22天前
|
人工智能 边缘计算 JSON
DistilQwen2 蒸馏小模型在 PAI-QuickStart 的训练、评测、压缩及部署实践
本文详细介绍在 PAI 平台使用 DistilQwen2 蒸馏小模型的全链路最佳实践。
|
2月前
|
并行计算 PyTorch 算法框架/工具
yolov5训练太慢的解决方案
这篇文章讨论了YOLOv5训练速度慢的问题,并提供了解决方案,主要是由于没有安装CUDA和支持GPU的PyTorch版本,导致只有CPU在工作。文章建议安装CUDA和正确配置支持GPU的PyTorch以加速训练过程。
256 0
yolov5训练太慢的解决方案
|
4月前
|
机器学习/深度学习 并行计算 TensorFlow
GPU加速TensorFlow模型训练:从环境配置到代码实践的全方位指南,助你大幅提升深度学习应用性能,让模型训练不再等待
【8月更文挑战第31天】本文以随笔形式探讨了如何在TensorFlow中利用GPU加速模型训练,并提供了详细的实践指南。从安装支持GPU的TensorFlow版本到配置NVIDIA CUDA及cuDNN库,再到构建CNN模型并使用MNIST数据集训练,全面展示了GPU加速的重要性与实现方法。通过对比CPU与GPU上的训练效果,突显了GPU在提升训练速度方面的显著优势。最后,还介绍了如何借助TensorBoard监控训练过程,以便进一步优化模型。
728 0
|
5月前
|
人工智能
Prompt工程问题之调优prompt改善AI模型的推理结果如何解决
Prompt工程问题之调优prompt改善AI模型的推理结果如何解决
74 1
|
4月前
|
算法 搜索推荐
支付宝商业化广告算法问题之基于pretrain—>finetune范式的知识迁移中,finetune阶段全参数训练与部分参数训练的效果如何比较
支付宝商业化广告算法问题之基于pretrain—>finetune范式的知识迁移中,finetune阶段全参数训练与部分参数训练的效果如何比较
|
4月前
|
人工智能 自然语言处理 API
【AI大模型】Transformers大模型库(十二):Evaluate模型评估
【AI大模型】Transformers大模型库(十二):Evaluate模型评估
101 0
|
6月前
|
语音技术 计算机视觉
CVPR 2024 Highlight :北航等发布时间特征维护:无需训练,极致压缩加速Diffusion
【6月更文挑战第28天】在CVPR 2024会议上,北航等研究团队提出了**时间特征维护**技术,针对Diffusion模型实现无需训练的高效压缩与加速。通过选择性保留关键时间特征,他们在保持生成质量的同时,实现了模型4bit极致压缩和超过2.38倍硬件加速,简化了复杂模型,提升了运行效率。这一创新方法有望改善Diffusion模型在实际应用中的资源需求,但其鲁棒性和泛化能力尚需更多验证。[论文链接](https://arxiv.org/pdf/2311.16503)
68 5
|
人工智能 自然语言处理 PyTorch
Prompt-“设计提示模板:用更少数据实现预训练模型的卓越表现,助力Few-Shot和Zero-Shot任务”
Prompt-“设计提示模板:用更少数据实现预训练模型的卓越表现,助力Few-Shot和Zero-Shot任务”
Prompt-“设计提示模板:用更少数据实现预训练模型的卓越表现,助力Few-Shot和Zero-Shot任务”
|
7月前
|
机器学习/深度学习 存储 算法
YOLO落地部署 | 一文全览YOLOv5最新的剪枝、量化的进展【必读】
YOLO落地部署 | 一文全览YOLOv5最新的剪枝、量化的进展【必读】
1062 0