💡💡💡为了实现高效的局部-全局信息交换,有效平衡图像信息低与高层语义差异大的问题,
引入了一种新颖的大核局部-全局-局部(LGL)模块。
💡💡💡如何与YOLO26结合:C3k2与LGL结合;
💡💡💡在crack-seg分割任务中,C3k2结合LGLB ,Mask 原始mAP50原始为0.68 提升至 0.69 , R 原始为 0.655提升至 0.691,Mask mAP50-95原始为0.225提升至 0.237
博主简介
AI小怪兽 | 计算机视觉布道者 | 视觉检测领域创新
深耕计算机视觉与深度学习领域,专注于视觉检测前沿技术的探索与突破。长期致力于YOLO系列算法的结构性创新、性能极限优化与工业级落地实践,旨在打通从学术研究到产业应用的最后一公里。
1.YOLO26原理介绍
论文:https://arxiv.org/pdf/2509.25164
摘要:本研究对Ultralytics YOLO26进行了全面分析,重点阐述了其关键架构改进及其在实时边缘目标检测中的性能基准测试。YOLO26于2025年9月发布,是YOLO系列最新、最先进的成员,专为在边缘及低功耗设备上实现高效、精确且易于部署的目标而构建。本文依次详述了YOLO26的架构创新,包括:移除了分布焦点损失(DFL);采用端到端的无NMS推理;集成了渐进损失(ProgLoss)与小目标感知标签分配(STAL);以及引入了用于稳定收敛的MuSGD优化器。除架构外,本研究将YOLO26定位为多任务框架,支持目标检测、实例分割、姿态/关键点估计、定向检测及分类。我们在NVIDIA Jetson Nano与Orin等边缘设备上呈现了YOLO26的性能基准测试,并将其结果与YOLOv8、YOLOv11、YOLOv12、YOLOv13及基于Transformer的检测器进行比较。本文进一步探讨了其实时部署路径、灵活的导出选项(ONNX、TensorRT、CoreML、TFLite)以及INT8/FP16量化技术。文章重点展示了YOLO26在机器人、制造业及物联网等领域的实际应用案例,以证明其跨行业适应性。最后,讨论了关于部署效率及更广泛影响的见解,并展望了YOLO26及YOLO系列的未来发展方向。
关键词:YOLO26;边缘人工智能;多任务目标检测;无NMS推理;小目标识别;YOLO(You Only Look Once);目标检测;MuSGD优化器
分割结构框图如下:
1.1 YOLO11 vs YOLO26结构差异性
1.1.1 SPPF 核心差异对比
1)池化次数灵活性:YOLO11 的 3 次池化是硬编码的,要修改必须改源码;YOLO26 通过n参数可灵活调整(比如设为 2 次或 4 次),无需改核心逻辑。
2)Shortcut 设计:YOLO26 新增的残差连接能缓解深层网络的梯度消失问题,提升特征复用能力,而 YOLO11 无此设计。
3)激活函数控制:YOLO26 禁用 Conv1 的激活函数,让特征在池化前保持更 “原始” 的状态,是工程上对特征提取的优化。
源码位置:ultralytics/nn/modules/block.py
1.1.2 C3k2 核心差异对比
1)注意力机制的新增:YOLO26 的 C3k2 首次引入PSABlock(金字塔注意力模块),通过attn参数控制是否启用,这是两者最核心的功能差异 —— 启用后模块会先通过 Bottleneck 提取基础特征,再通过 PSABlock 增强关键区域的特征权重,提升小目标 / 复杂场景的检测效果。
2)分支逻辑的扩展:YOLO11 的分支仅受c3k控制,而 YOLO26 的分支逻辑优先级为attn > c3k,即只要attn=True,会优先启用注意力模块,忽略c3k的配置。
重复模块m (n次迭代): ┌─────────────────────────────────────────────────────────┐ │ │ │ 如果 attn=True: │ │ Sequential( │ │ Bottleneck(self.c, self.c), │ ←─ 先特征提取 │ PSABlock(self.c, attn_ratio=0.5, num_heads=...) │ ←─ 后注意力增强 │ ) │ │ │ │ 否则如果 c3k=True: │ │ C3k(self.c, self.c, 2) │ ←─ 同YOLOv11 │ │ │ 否则: │ │ Bottleneck(self.c, self.c) │ ←─ 同YOLOv11 │ │ └─────────────────────────────────────────────────────────┘
YOLO26 C3k2代码:
源码位置:ultralytics/nn/modules/block.py
1.2 YOLO26核心创新点
YOLO26引入了多项关键架构创新,使其区别于前几代YOLO模型。这些增强不仅提高了训练稳定性和推理效率,还从根本上重塑了实时边缘设备的部署流程。本节将详细描述YOLO26的四项主要贡献:(i)移除分布焦点损失(DFL),(ii)引入端到端无NMS推理,(iii)新颖的损失函数策略,包括渐进损失平衡(ProgLoss)和小目标感知标签分配(STAL),以及(iv)开发用于稳定高效收敛的MuSGD优化器。我们将详细讨论每一项架构增强,并通过对比分析突显其相对于YOLOv8、YOLOv11、YOLOv12和YOLOv13等早期YOLO版本的优势。
1.2.1 创新点1:移除分布焦点损失(DFL)
YOLO26最重要的架构简化之一是移除了分布焦点损失(DFL)模块(图3a),该模块曾存在于YOLOv8和YOLOv11等早期YOLO版本中。DFL最初旨在通过预测边界框坐标的概率分布来改进边界框回归,从而实现更精确的目标定位。虽然该策略在早期模型中展示了精度提升,但也带来了不小的计算开销和导出困难。在实践中,DFL在推理和模型导出期间需要专门处理,这使针对ONNX、CoreML、TensorRT或TFLite等硬件加速器的部署流程变得复杂。
源码位置:ultralytics/utils/loss.py
通过reg_max 设置为1,移除了分布焦点损失(DFL)
class BboxLoss(nn.Module): """Criterion class for computing training losses for bounding boxes.""" def __init__(self, reg_max: int = 16): """Initialize the BboxLoss module with regularization maximum and DFL settings.""" super().__init__() self.dfl_loss = DFLoss(reg_max) if reg_max > 1 else None
1.2.2 创新点2:端到端无NMS推理
YOLO26从根本上重新设计了预测头,以直接产生非冗余的边界框预测,无需NMS。这种端到端设计不仅降低了推理复杂度,还消除了对手动调优阈值的依赖,从而简化了集成到生产系统的过程。对比基准测试表明,YOLO26实现了比YOLOv11和YOLOv12更快的推理速度,其中nano模型在CPU上的推理时间减少了高达43%。这使得YOLO26对于移动设备、无人机和嵌入式机器人平台特别有利,在这些平台上,毫秒级的延迟可能产生重大的操作影响。
源码位置:ultralytics/utils/nms.py
1.2.3 创新点3:ProgLoss和STAL:增强训练稳定性和小目标检测
训练稳定性和小目标识别仍然是目标检测中持续存在的挑战。YOLO26通过整合两种新颖策略来解决这些问题:渐进损失平衡(ProgLoss)和小目标感知标签分配(STAL),如图(图3c)所示。
ProgLoss在训练期间动态调整不同损失分量的权重,确保模型不会过拟合于主导物体类别,同时防止在稀有或小类别上表现不佳。这种渐进式再平衡改善了泛化能力,并防止了训练后期的不稳定。另一方面,STAL明确优先为小目标分配标签,由于像素表示有限且易被遮挡,小目标尤其难以检测。ProgLoss和STAL共同为YOLO26在包含小目标或被遮挡目标的数据集(如COCO和无人机图像基准)上带来了显著的精度提升。
1.2.4 创新点4:用于稳定收敛的MuSGD优化器
YOLO26的最后一项创新是引入了MuSGD优化器(图3d),它结合了随机梯度下降(SGD)的优势与最近提出的Muon优化器(一种受大型语言模型训练中使用的优化策略启发而发展的技术)。MuSGD利用SGD的鲁棒性和泛化能力,同时融入了来自Muon的自适应特性,能够在不同数据集上实现更快的收敛和更稳定的优化。
源码位置:ultralytics/optim/muon.py
2.如何训练YOLO26分割模型
2.1 如何训练裂缝分割数据集
2.1.1 数据集介绍
裂缝分割数据集是一个为交通与公共安全研究相关人员设计的综合性资源。它对于开发自动驾驶汽车模型或探索各类计算机视觉应用也大有裨益。该数据集包含 4029 张从不同道路和墙面场景采集的静态图像,是裂缝分割任务的宝贵资产。无论您是研究交通基础设施,还是旨在提高自动驾驶系统的准确性,该数据集都为训练深度学习模型提供了丰富的图像集合。
数据集结构
《裂缝分割数据集》被组织为三个子集:
- 训练集:3717 张图像及相应的标注。
- 测试集:112 张图像及相应的标注。
- 验证集:200 张图像及相应的标注。
2.2 训练可视化对比
训练方式:
import warnings warnings.filterwarnings('ignore') from ultralytics import YOLO if __name__ == '__main__': model = YOLO('ultralytics/cfg/models/26/yolo26n-seg.yaml') #model.load('yolo26n-seg.pt') # loading pretrain weights model.train(data='data/crack-seg/crack-seg.yaml', cache=False, imgsz=640, epochs=300, batch=32, close_mosaic=10, workers=2, device='0', # optimizer='SGD', # using SGD,auto project='runs/train', name='exp', )
训练结果可视化结果
YOLO26-seg summary (fused): 139 layers, 2,689,079 parameters, 0 gradients, 9.6 GFLOPs Class Images Instances Box(P R mAP50 mAP50-95) Mask(P R mAP50 mAP50-95): 100% ━━━━━━━━━━━━ 7/7 1.4it/s 5.1s all 200 249 0.852 0.707 0.784 0.602 0.788 0.655 0.68 0.225
3 新颖的大核局部-全局-局部(LGL)结合YOLO26的C3k2模块
3.1原理介绍
论文:https://arxiv.org/pdf/2508.01064
摘要:在临床实践中,医学影像分析往往需要在资源受限的移动设备上高效执行。然而,现有的移动模型——主要针对自然图像优化——由于自然领域与医学领域之间存在显著的信息密度差距,在医学任务上表现通常较差。在开发轻量、通用且高性能网络时,将计算效率与医学影像特有的架构优势结合起来仍然是一个挑战。为此,我们提出了一种专为医学影像分割设计的移动模型,称为移动U形视觉Transformer(Mobile U-ViT)。具体而言,我们采用新提出的ConvUtr作为分层块嵌入,其特点是参数高效的大核CNN与反向瓶颈融合。该设计在更轻、更快的同时,展现出类似Transformer的表征学习能力。为了实现高效的局部-全局信息交换,我们引入了一种新颖的大核局部-全局-局部(LGL)模块,有效平衡了医学图像信息密度低与高层语义差异大的问题。最后,我们引入了一个浅层轻量的Transformer瓶颈用于长程建模,并采用级联解码器与下采样跳跃连接实现密集预测。尽管计算需求大幅降低,我们这一面向医学优化的架构在涵盖多种成像模态的八个公共2D与3D数据集上均达到了最先进性能,并在四个未见数据集上实现了零样本测试。这些结果确立了它作为一种高效、强大且具有泛化能力的移动医学影像分析解决方案。
图1:Mobile U-ViT 的创新与卓越性能。(a) 医学图像与自然图像之间的信息密度差距。与自然图像不同,医学图像通常只包含稀疏的局部特征,且由于分布噪声和外部伪影,相关信息往往难以提取。由于二维病灶分割和三维体积分割都依赖全局上下文进行推理与定位,因此需要更大的感受野来捕获足够的信息。(b) 不同方法在三维多器官分割数据集上的性能。结果展示了 Mobile U-ViT 在不同大小器官上的优越性。(c) Mobile U-ViT 在二维数据集上的精度提升。结果验证了我们方法的鲁棒性。(d) Mobile U-ViT 编码器由两个核心组件构成:ConvUtr 和大核局部-全局-局部(LKLGL)模块。ConvUtr 基于 CNN,但具备 Transformer 的学习模式;LKLGL 则在保持高计算效率的同时,进一步提升全局与局部的理解能力。
本文旨在通过设计一种更高效、专为医学影像分割定制的移动端网络来弥合这一差距:
- 针对问题 (i),为了在扩大感受野的同时保持计算效率,我们提出了一种采用“Transformer 模式”的大核卷积模块 ConvUir 作为补丁嵌入层。ConvUtr 基于深度可分离卷积(DSConv)构建:先利用大核深度卷积提取全局特征,再通过两级逐点卷积(倒置瓶颈)促进通道间交互。该设计呼应了 Transformer 的建模范式(见图 1(d))。相比原始 ViT,ConvUtr 显著削减参数量,为移动端提供了更轻、更快的选择。
- 针对问题 (ii),我们引入 Large-Kernel Local-Global-Local(LKLGL)模块,以降低语义歧义并强化局部-全局特征融合。其信息流分为三步:先局部聚合(红色),再高效完成全局上下文交换(蓝色),最后将精炼信息重新局部分配(绿色),如图 1(d) 所示。模块内置的 token 聚合操作减少了 token 数量,使长程计算更加高效。
- 此外,我们构建了带下采样跳跃连接的级联轻量解码器,在保证快速解码的同时,对齐细粒度局部细节与高层全局语义,实现精准密集预测。
大量实验表明,该医学专用架构在八个公开 2D/3D 多模态数据集上均取得 SOTA 性能,并在零样本场景下验证了其泛化能力。凭借显著降低的资源消耗与卓越性能,Mobile U-ViT 成为移动端医学影像分析的高效而强大的解决方案。
总结而言,我们提出了一种新颖的混合轻量网络 Mobile U-ViT,以应对移动端医学影像的挑战。其核心贡献包括:
- ConvUtr:受 Transformer 启发的轻量 CNN 骨干,可将稀疏像素空间的医学图像高效压缩为紧凑潜表征;
- LKLGL 模块:通过结构化局部-全局-局部信息流,实现鲁棒特征精炼;
- 带下采样跳跃连接的级联解码器:有效对齐局部与全局特征,支撑精准高效的密集预测。
图2:Mobile U-ViT 的整体架构。编码器分为 5 个阶段:前 3 个阶段采用具有 CNN 结构的 ConvUtr 模块;第 4 阶段为 Large-kernel LGL 模块堆叠。每个解码器块由“上采样模块 + 卷积模块”组成,并通过下采样跳跃连接实现特征融合。
3.2 yolo26-seg-C3k2_LGLB结构框图
3.3 训练结果可视化结果
Mask 原始mAP50原始为0.68 提升至 0.69 , R 原始为 0.655提升至 0.691,Mask mAP50-95原始为0.225提升至 0.237
YOLO26-seg-C3k2_LGLB summary: 239 layers, 2,700,343 parameters, 0 gradients, 9.6 GFLOPs Class Images Instances Box(P R mAP50 mAP50-95) Mask(P R mAP50 mAP50-95): 100% ━━━━━━━━━━━━ 7/7 1.3it/s 5.3s all 200 249 0.827 0.768 0.823 0.624 0.758 0.691 0.69 0.237