EdgeYOLO来袭 | Xaiver超实时,精度和速度完美超越YOLOX、v4、v5、v6(二)

简介: EdgeYOLO来袭 | Xaiver超实时,精度和速度完美超越YOLOX、v4、v5、v6(二)

4、实验


4.1、消融实验

1、Decoupled head

2、Segmentation labels (poor effect)

当在数据增强期间处理旋转的标签时,在没有分割信息的情况下,在旋转后获得原始标签框的四个坐标角点,并绘制一个不倾斜并穿过四个点的框作为要使用的标签。这可能包含更多无效的背景信息。

因此,当在MS COCO2017上训练模型时,尝试通过使用分割标签来生成边界框,以便图像旋转后的标签仍然保持高精度。当启用数据扩充并且损失进入稳定下降阶段时,使用分段标签可以显著增加2%-3%AP。

由于数据扩充在训练的最后阶段被设置为禁用,因此所有标签都变得更加准确。此外,即使不使用分割标签,最终精度也仅降低约0.04%AP。

3、损失函数

4.2 为边缘计算设备设计的技巧

1、Input size adaptation

2、多进程和多线程的计算体系结构

作为一个包含预处理、模型输入和后处理的整体检测过程,这三个部分可以在实际部署中拆分,并分配给多个进程和线程进行计算。在测试中,使用拆分架构可以实现大约8%-14%的FPS增长。

4.3、SOTA对比

4.4、总结

本文提出了一种边缘实时和Anchor-Free单阶段检测器EdgeYOLO,其一些代表性结果如图5和图6所示。如实验所示,EdgeYOLO可以在边缘设备上以高精度实时运行,其检测小目标的能力得到了进一步提高。

由于EdgeYOLO使用Anchor-Free结构,因此设计复杂性和计算复杂性降低,并且在边缘设备上的部署更加友好。

此外,作者相信该框架可以扩展到其他像素级识别任务,例如实例分割。在未来的工作中,将进一步提高框架对小目标的检测精度,并进行有效优化的探索。


5、参考


[1].EdgeYOLO: An Edge-Real-Time Object Detector.

相关文章
|
1天前
|
Web App开发 人工智能 自然语言处理
GPT-5涌现能力可预测?UC伯克利仅使用当前模型检查点预测未来模型
加州大学伯克利分校的一项新研究提出了一种基于微调大型语言模型(LLM)的方法,以预测未来模型的涌现能力。通过在特定任务上微调现有模型并拟合参数化函数,研究团队能够在四个NLP基准测试中准确预测未来模型的能力。该方法为模型开发者和政策制定者提供了重要工具,但也存在局限性,如仅能预测4倍计算资源内的涌现现象。论文地址:https://arxiv.org/pdf/2411.16035。
15 1
|
3月前
|
存储 人工智能 算法
《C++与AI共舞:模型压缩率与预测准确率的平衡之路》
在AI领域,C++凭借其高效性能成为构建智能应用的重要工具。本文探讨了模型压缩与预测准确率之间的平衡问题,从模型架构、数据特性和压缩算法选择等方面提出了解决方案,并强调了动态调整和持续优化的重要性,旨在帮助开发者在资源受限环境下实现高性能、高精度的AI应用。
158 68
|
2月前
|
机器学习/深度学习 编解码 人工智能
扩散模型失宠?端侧非自回归图像生成基础模型Meissonic登场,超越SDXL!
Meissonic是一种新型图像生成模型,采用非自回归的掩码图像建模(MIM)方法,在性能和效率上超越了当前最先进的扩散模型SDXL。其创新点包括改进的注意力机制、多尺度特征提取、先进位置编码策略和优化采样条件等,能够生成高质量、高分辨率图像。此外,Meissonic引入人类偏好评分和特征压缩层,提升图像质量和计算效率。尽管存在一些挑战,Meissonic为统一语言-视觉模型的发展提供了新思路,并在创意设计、虚拟现实等领域展现出广泛应用前景。
85 24
|
5月前
|
人工智能 计算机视觉
时序=图像?无需微调,视觉MAE跨界比肩最强时序预测大模型
【10月更文挑战第15天】《VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters》提出了一种创新方法,通过将时序数据转化为图像,利用视觉掩码自编码器(MAE)进行自监督预训练,实现时序预测。该模型在未进行任何时序域适配的情况下,展现了出色的零样本预测性能,并且通过少量微调即可达到最先进水平。这一研究为时序预测领域带来了新希望,同时也引发了关于模型解释性和可信度的讨论。
192 1
|
8月前
|
测试技术
8B尺寸达到GPT-4级性能!北大等提出医疗专家模型训练方法
【7月更文挑战第8天】北京大学等研究者提出的新方法缓解了大模型如Llama-3-8B在持续预训练时的“稳定性差距”,通过多轮次训练、高质量子语料库选择和数据混合策略,提升性能和效率。在医疗领域,他们将OpenLlama-3B性能提升至40.7%,并创建的Llama-3-Physician模型达到GPT-4级别。尽管取得突破,该方法在其他模型和领域的适用性仍需探索,且持续预训练仍资源密集。[链接: https://arxiv.org/abs/2406.14833]
117 25
|
机器学习/深度学习 人工智能 算法
【CIKM 2023】扩散模型加速采样算法OLSS,大幅提升模型推理速度
近日,阿里云人工智能平台 PAI与华东师范大学陈岑副教授团队合作在深度学习顶级会议 CIKM 2023 上发表 OLSS (Optimal Linear Subspace Search) 算法,这是一种针对扩散模型的采样加速算法。在这篇论文中,扩散模型加速算法的本质被建模成线性子空间的扩张过程,给出了目前方法的统一分析,并基于此设计了新的加速算法,大幅度提升了扩散模型的生成速度。
|
机器学习/深度学习 自然语言处理 大数据
INTERSPEECH 2022论文解读|Paraformer: 高识别率、高计算效率的单轮非自回归端到端语音识别模型
INTERSPEECH 是由国际语音通讯协会(International Speech Communication Association, ISCA)创办的语音信号处理领域顶级旗舰国际会议。历届 INTERSPEECH 会议都备受全球各地语音语言领域人士的广泛关注。 本文介绍一种具有高识别率与计算效率的单轮非自回归模型 Paraformer。该论文已被 INTERSPEECH 2022 接收。
928 0
INTERSPEECH 2022论文解读|Paraformer: 高识别率、高计算效率的单轮非自回归端到端语音识别模型
|
机器学习/深度学习 边缘计算 并行计算
EdgeYOLO来袭 | Xaiver超实时,精度和速度完美超越YOLOX、v4、v5、v6(一)
EdgeYOLO来袭 | Xaiver超实时,精度和速度完美超越YOLOX、v4、v5、v6(一)
305 0
|
机器学习/深度学习 自然语言处理 算法
EfficientFormer | 苹果手机实时推理的Transformer模型,登顶轻量化Backbone之巅
EfficientFormer | 苹果手机实时推理的Transformer模型,登顶轻量化Backbone之巅
480 0
|
机器学习/深度学习 人工智能 边缘计算
首个在ImageNet上精度超过80%的二值神经网络BNext问世,-1与+1的五年辛路历程
首个在ImageNet上精度超过80%的二值神经网络BNext问世,-1与+1的五年辛路历程
175 0