苹果公司提出Mobile-ViT | 更小、更轻、精度更高,MobileNets或成为历史!!!(二)

简介: 苹果公司提出Mobile-ViT | 更小、更轻、精度更高,MobileNets或成为历史!!!(二)

4实验结果


4.1 ImageNet-1K

图4.1 Light-CNNs参数对比

图4.2 Light-CNNs精度对比

图4.3 CNNs精度对比

图4.1显示了MobileViT在不同网络规模(MobileNetv1、MobileNetv2、ShuffleNetv2、ESPNetv2和MobileNetv3)上的性能优于轻量级CNN。例如,对于一个大约有250万个参数的模型(图4.2),在ImageNet-1k验证集上,MobileViT比MobileNetv2、ShuffleNetv2和MobileNetv3的性能分别高出5.0%、5.4%和7.4%。

图4.3进一步显示,MobileViT提供了比Heavy-weight CNN(ResNet, DenseNet, ResNet-se和EfficientNet)更好的性能。例如,对于相同数量的参数,MobileViT比effentnet的准确率高出2.1%。

图4.4 ViTs参数对比

图4.5 ViTs精度对比

图4.4比较了MobileViT和在ImageNet-1k数据集上从头开始训练的ViT变体(DeIT、T2T、PVT、CAIT、DeepViT、CeiT、CrossViT、LocalViT、PiT、ConViT、ViL、BoTNet和Mobile-former)。

不像ViT变体,显著受益于高级的数据增强(例如,PiT w/ basic vs. advanced: 72.4%(R4) vs. 78.1%(R17);图4.5), MobileViT通过更少的参数和基本的增强实现了更好的性能。例如,MobileViT比DeiT小2.5,好2.6%。

总的来说,这些结果表明,与CNN相似,MobileViTs易于优化和鲁棒性强。因此,它们可以很容易地应用于新的任务和数据集。

4.2 目标检测任务

图4.6 Light-CNN对比

图4.6 Heavy-CNN对比

图4.6显示,在320×320的相同输入分辨率下,基于MobileViT的SSDLite与其他轻型CNN模型(MobileNetv1、MobileNetv2、MobileNetv3、MNASNet和MixNet)相比,性能更好。

例如,当使用MobileViT而不是MNASNet作为Backbone时,SSDLite的性能提高了1.8%,其模型尺寸减少了1.8×。此外,基于MobileViT的SSDLite性能优于Heavy-CNN Backbone的标准SSD-300,同时学习的参数明显更少。

4.3 语义分割任务

图4.8 语义分割结果对比

图4.8显示了带有MobileViT的DeepLabv3更小更好。使用MobileViT代替MobileNetv2作为Backbone时,DeepLabv3的性能提高了1.4%,体积减少了1.6×。此外,MobileViT提供了具有竞争力的性能与模型renet-101相比,所需参数减少了9倍。


5参考


[1].MOBILEVIT: LIGHT-WEIGHT, GENERAL-PURPOSE,AND MOBILE-FRIENDLY VISION TRANSFORMER


6推荐阅读


Mobile-Former | MobileNet+Transformer轻量化模型(精度速度秒杀MobileNet)

超越MobileNet V3 | 详解SkipNet+Bias Loss=轻量化模型新的里程碑

超越GhostNet!吊打MobileNetV3!MicroNet通过极低FLOPs实现图像识别(文末获取论文)

快到起飞 | PP-LCNet在CPU上让模型起飞,精度提升且比MobileNetV3+快3倍

相关文章
|
7天前
|
人工智能 自然语言处理
微软让MoE长出多个头,大幅提升专家激活率
【5月更文挑战第26天】微软研究团队为解决稀疏混合专家(SMoE)模型激活率低的问题,推出了多头混合专家(MH-MoE)模型。MH-MoE通过多头机制将输入数据划分并分配给多个专家,提高专家激活率,增强模型表达能力。实验显示,该模型在多项任务上性能显著提升,但复杂度增加可能影响训练和推理效率,且优化多头机制与专家分配仍是挑战。[链接](https://arxiv.org/pdf/2404.15045)
19 2
|
19天前
|
数据采集 人工智能 自然语言处理
谷歌DeepMind发布Gecko:专攻检索,与大7倍模型相抗衡
【4月更文挑战第12天】谷歌DeepMind的Gecko模型以小巧身形(256维)展现出媲美大型语言模型的检索性能,且在MTEB基准测试中超越768维模型。采用两步蒸馏法训练,适用于多任务及硬件环境,尤其在多语言处理上表现出色。尽管训练成本高、泛化能力待优化,但其创新为文本嵌入技术带来新可能。
42 7
谷歌DeepMind发布Gecko:专攻检索,与大7倍模型相抗衡
|
19天前
|
机器学习/深度学习 数据处理
苹果新研究提升服务大模型效率
【2月更文挑战第29天】苹果公司研发的ReDrafter是一种新型推测解码方法,旨在提高大型语言模型的推理效率。该方法结合双模型和单模型优点,使用轻量级草稿头及递归依赖设计,优化内存和计算资源,降低推理延迟。实验显示,ReDrafter在性能上超越了现有方法,尤其适合需要快速响应的场景。这一突破为大型语言模型的效率提升提供了新思路,但也面临准确性和复杂性权衡以及集成挑战。论文链接:[https://arxiv.org/pdf/2403.09919.pdf](https://arxiv.org/pdf/2403.09919.pdf)
17 2
苹果新研究提升服务大模型效率
|
19天前
|
机器学习/深度学习 编解码 数据可视化
南开大学提出YOLO-MS | 超越YOLOv8与RTMDet,即插即用打破性能瓶颈
南开大学提出YOLO-MS | 超越YOLOv8与RTMDet,即插即用打破性能瓶颈
54 1
|
10月前
|
机器学习/深度学习 编解码 算法
30%Token就能实现SOTA性能,华为诺亚轻量目标检测器Focus-DETR效率倍增
30%Token就能实现SOTA性能,华为诺亚轻量目标检测器Focus-DETR效率倍增
353 0
|
机器学习/深度学习 编解码 PyTorch
苹果公司提出Mobile-ViT | 更小、更轻、精度更高,MobileNets或成为历史!!!(一)
苹果公司提出Mobile-ViT | 更小、更轻、精度更高,MobileNets或成为历史!!!(一)
255 0
|
机器学习/深度学习 自然语言处理
微软提出MiniViT | 把DeiT压缩9倍,性能依旧超越ResNet等卷积网络(二)
微软提出MiniViT | 把DeiT压缩9倍,性能依旧超越ResNet等卷积网络(二)
172 0
|
机器学习/深度学习 存储 自然语言处理
微软提出MiniViT | 把DeiT压缩9倍,性能依旧超越ResNet等卷积网络(一)
微软提出MiniViT | 把DeiT压缩9倍,性能依旧超越ResNet等卷积网络(一)
215 0
|
机器学习/深度学习 存储 编解码
不到1ms在iPhone12上完成推理,苹果提出移动端高效主干网络MobileOne
不到1ms在iPhone12上完成推理,苹果提出移动端高效主干网络MobileOne
122 0
|
机器学习/深度学习 人工智能 异构计算
谷歌Quoc Le团队新transformer:线性可扩展,训练成本仅有原版1/12
谷歌Quoc Le团队新transformer:线性可扩展,训练成本仅有原版1/12
116 0