YOLO系列的落地 | YOLOv7+注意力机制在农业上的应用（二）-阿里云开发者社区

YOLO系列的落地 | YOLOv7+注意力机制在农业上的应用（二）

2023-05-26 714

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： YOLO系列的落地 | YOLOv7+注意力机制在农业上的应用（二）

2.6 Related Network

本节首先介绍了YOLOv7算法，然后详细介绍了本文提出的在YOLOv7中添加注意力机制的改进方法。

2.6.1 YOLOv7

本文提出了一种基于计算机视觉的基于家鸭目标检测和种群统计的识别和检测算法。利用该算法，育种者可以实时获取野鸭的数量和行为动态，实现养殖场的快速管理和战略制定，优化野鸭的繁殖率和生长速度，有助于实现经济效益的最大化。

鉴于鸭种群中个体密度小，且种群统计的实时要求，选择了最新的Yolov7模型。“你只看一次（Yolov7）是一种单阶段目标检测算法。图5为Yolov7的网络结构图。将Yolov7模型预处理方法与Yolov5集成，使用镶嵌数据增强适用于小目标检测。在体系结构方面，提出了基于ELAN的扩展ELAN（E-ELAN）。利用扩展、shuffle和合并基数，在不破坏原始梯度路径的情况下，不断提高网络的学习能力。在计算块的体系结构中，利用群卷积来扩展计算块的通道和基数。不同的计算块组被引导去学习更多样化的特征。

然后，它重点关注一些优化模块和方法，称为可训练的“bag-of-freebies”，包括以下内容：

采用无Identity的RepConv设计了规划的重参化卷积体系结构，为不同的特征图提供了更多的梯度多样性。
介绍了辅助检测头，并利用优化过程生成的软标签用于Lead Head和辅助头的学习。因此，由此生成的软标签应该能更好地表示源数据与目标之间的分布和相关性，从而获得更准确的结果。

批次归一化层直接连接到卷积层，使得批次的归一化平均值和方差在推断阶段被集成到卷积层的偏差和权重中。
利用YOLOR中隐式知识的加法和乘法方法，结合卷积特征映射，可以在推理阶段通过预先计算将其简化为向量，从而结合之前或后续卷积层的偏差和权重。
EMA模型纯粹被用作最终的推理模型。最后，实时目标检测可以在不增加推理成本的情况下大大提高检测精度，使5-160FPS范围内的速度和精度超过所有已知的目标检测器，可以实现目标检测的快速响应和准确预测。

2.6.2 改进注意力机制的YOLOv7

注意力机制是一种常见的数据处理方法，广泛应用于各个领域的机器学习任务。计算机视觉注意力机制的核心思想是找到原始数据之间的相关性，然后突出重要的特征，如通道注意力、像素注意力、多阶注意力等。

CBAM主要包括通道注意力模块和空间注意力模块。模块结构如图6所示。

CBAM是一个轻量级的注意力模块，可以在通道和空间维度上执行注意力操作。它由通道注意力模块（CAM）和空间注意力模块（SAM）组成。CAM可以使网络更加关注图像的前景和有意义的区域，而SAM可以使网络更关注富含整个画面上下文信息的位置。

2.6.3 YOLOv7 Introduces the CBAM Attention Mechanism

CBAM注意力机制被添加到YOLOV7网络结构中，网络结构如图7所示。该模块的功能是进一步提高特征提取网络的特征提取能力。一旦将注意力机制添加到骨干网络中，注意力机制模块就会降低骨干网络的一些原始权重。这导致网络的预测结果出现错误。在这方面选择将注意力机制添加到增强特征网络提取的部分，而不破坏网络提取的原始特征。

CBAM注意机制的工作原理如下：

在通道注意力模块中，对H×W×C的输入特征图进行全局最大池化（GMP）和全局平均池化（GAP），得到2个大小为1×1×C的特征图。这2个特征图被发送到一个两层的多层感知器。MLP第一层的神经元数量为C/r（r为还原率），激活函数为ReLU。第二层神经元的数量为C，这两层神经网络的权值被共享。然后，基于元素级计算添加输出特征，并通过sigmoid生成最终的通道附着特征。最后，将通道注意力特征乘以原始输入特征图，得到空间注意力模块的输入特征。

在空间注意模块中，使用上一步中的特征图作为输入。

经过GMP和GAP后，得到了2个大小为H×W×1的特征图。然后执行Concat操作。将特征图降维后，通过sigmoid生成空间注意力特征。最后，将空间注意力特征乘以输入的特征图，得到最终的特征图。