YOLO系列的落地 | YOLOv7+注意力机制在农业上的应用（一）-阿里云开发者社区

YOLO系列的落地 | YOLOv7+注意力机制在农业上的应用（一）

2023-05-26 274

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： YOLO系列的落地 | YOLOv7+注意力机制在农业上的应用（一）

饲养密度是影响畜禽大规模生产和动物福利的关键因素。然而，麻鸭养殖业目前使用的人工计数方法效率低、人工成本高、精度低，而且容易重复计数和遗漏。

在这方面，本文使用深度学习算法来实现对密集麻鸭群数量的实时监测，并促进智能农业产业的发展。本文构建了一个新的大规模大麻鸭目标检测图像数据集，其中包含1500个大麻鸭目标的检测全身帧标记和仅头部帧标记。

此外，本文提出了一种基于注意力机制改进的YOLOv7算法CBAM-YOLOv7，在YOLOv7的主干网络中添加了3个CBAM模块，以提高网络提取特征的能力，并引入SE-YOLOv7和ECA-YOLOv7进行比较实验。

实验结果表明，CBAM-YOLOv7具有较高的精度，mAP@0.5和mAP@0.5:0.95略有改善。CBAM-YOLOv7的评价指标值比SE-YOLOw7和ECA-YOLOv 7的提高更大。此外，还对两种标记方法进行了比较测试，发现仅头部标记方法导致了大量特征信息的丢失，而全身框架标记方法显示了更好的检测效果。

算法性能评估结果表明，本文提出的智能麻鸭计数方法是可行的，可以促进智能可靠的自动计数方法的发展。

1、简介

随着技术的发展，监控设备在农业中发挥着巨大的作用。有多种方法可以监测个体动物的行为，例如插入芯片记录生理数据、使用可穿戴传感器和（热）成像技术。一些方法使用附着在鸟类脚上的可穿戴传感器来测量它们的活动，但这可能会对受监测的动物产生额外影响。特别是，在商业环境中，技术限制和高成本导致这种方法的可行性低。

因此，基于光流的视频评估将是监测家禽行为和生理的理想方法。最初，许多监控视频都是人工观察的，效率低下，依赖于工作人员的经验判断，没有标准。然而，近年来，由于大数据时代的到来和计算机图形卡的快速发展，计算机的计算能力不断增强，加速了人工智能的发展。与人工智能相关的研究正在增加，计算机视觉在动物检测中的应用越来越广泛。

例如，2014年Girshick等人提出的R-CNN首次引入了两阶段检测方法。该方法使用深度卷积网络来获得优异的目标检测精度，但其许多冗余操作大大增加了空间和时间成本，并且难以在实际的养鸭场中部署。Law等人提出了一种单阶段的目标检测方法CornerNet和一种新的池化方法：角点池化。

然而，基于关键点的方法经常遇到大量不正确的目标边界框，这限制了其性能，无法满足鸭子饲养模型的高性能要求。Duan等人在CornerNet的基础上构建了CenterNet框架，以提高准确性和召回率，并设计了两个对特征级噪声具有更强鲁棒性的自定义模块，但Anchor-Free方法是一个具有前两个关键点组合的过程，并且由于网络结构简单、处理耗时、速率低和测量结果不稳定，它不能满足麻鸭工业化养殖所需的高性能和高准确率的要求。

本文的工作使用了一种单阶段目标检测算法，它只需要提取特征一次，就可以实现目标检测，其性能高于多阶段算法。目前，主流的单阶段目标检测算法主要包括YOLO系列、SSD、RetinaNet等。本文将基于CNN的人群计数思想转移并应用到鸭计数问题中。随着检测结果的输出，作者嵌入了一个目标计数模块来响应工业化的需求。目标计数也是计算机视觉领域的一项常见任务。目标计数可分为多类别目标计数和单类别目标计数；本工作采用了一群大麻鸭的单类别计数。

本文希望实现的目标是：

建立了一个新的大规模的德雷克图像数据集，并将其命名为“大麻鸭数据集”。大麻鸭数据集包含1500个标签，用于全身框架和头部框架，用于鸭的目标检测。该团队首次发布了大麻鸭数据集
本研究构建了大鸭识别、大鸭目标检测、大鸭图像计数等全面的工作基线，实现了麻鸭的智能养殖
该项目模型引入了CBAM模块来构建CBAM-YOLOv7算法

2、本文方法

2.1 材料的获取

麻鸭是我国数量最丰富、分布最广泛、种类最多样的家鸭之一，具有体型小、省食、产蛋效率高等特点，具有重要的研究价值。使用DJI Pocket 2，一个适应性极强和灵活的微型万向架相机，来捕捉本研究中使用的图像和视频数据集。数据收集自中国四川省雅安市的原水禽养殖场，由四川农业大学著名水禽饲养员王林泉教授创建。

在准备数据集的过程中，首先通过多次改变图像拍摄的角度和距离，从10个不同的麻鸭屋采集数据。然后，手工筛选并丢弃了一些高重复的数据和一些由于麻鸭屋阻塞而未捕获的冗余数据。最后，数据集总共包含了1500张图像，其中包括训练集中的1300张图像和测试集中的200张图像。图1显示了非最大抑制对麻鸭的检测、识别和计数任务所带来的挑战的分析。图2显示了一个数据集标记工作的示例。

在目标检测工作的预测阶段，网络输出多个候选Anchor，但其中许多Anchor在同一对象附近重叠，如图1b所示。非最大抑制能够保留这组候选Anchor中最好的一个，如图1c所示。将鸭A和鸭B命名为。当鸭A和鸭B太近时，由于筛选非最大入侵，可以消除鸭A的预测箱。因此，准确估计所包含的密集大麻鸭数据集的数量是一个挑战。

由于对整个麻鸭体进行标记导致了许多重叠的标记箱，影响了麻鸭个体计数的准确性，选择了只标记麻鸭头的方法，并对两者进行了比较实验。

2.2 数据预处理

2.2.1 混合数据增强

Mixup是一种基于简单的数据依赖数据增强原理的非常规数据增强方法，利用线性插值构建新的训练样本和标记。对数据标签的处理公式如下：

其中，2个数据对和为原始数据集中的训练样本对（训练样本及其对应的训练标签）;是一个遵循分布的参数；是mixup数据增强后的训练样本；是的标签。

图3为不同融合比例Mixup数据增强过程后的数据结果。

2.2.2 Mosaic Data Augmentation

YOLOv4网络使用Mosaic数据增强，其思想是随机切割4幅图像，并将它们组合成一幅图像作为新生成的训练数据，极大地丰富了检测数据集，使网络更加鲁棒，并减少了GPU视频内存占用。图4显示了Mosaic数据扩充操作的工作流程。

2.3 训练参数

实验中所使用的训练过程的训练参数如表1所示。

2.4 评价指标

为了评价该算法的性能，本研究中使用的评价指标分别为精度(P)、查全率(R)、mAP、F1 Score和FPS。

精度表示阳性样本占具有阳性预测结果的样本的比例。其计算公式如下：

召回率表示预测结果为阳性样本中实际阳性样本与整个样本中阳性样本的比例。其计算公式如下：

F1 Score为精度和查全率的加权平均值，计算方法如下：

精确度反映了模型区分负样本的能力。精度越高，模型区分负样本的能力就越强。回忆反映了该模型识别正样本的能力。召回率越高，模型识别阳性样本的能力就越强。F1 Score是两者的结合。F1 Score越高，模型就越稳健。

平均精度（AP）是不同查全率条件下最高精度的平均值（一般是每个类别的AP单独计算）。其计算公式如下：

在Pascal VOC 2008中，IOU的阈值设置为0.5。如果一个物体被重复检测到，置信度最高的一个是正样本，另一个是负样本。在平滑的PR曲线上，在横轴0-1上得到10个平分线（包括11个断点）的精度值，并计算其平均值作为最终的AP值。

mAP是每个类别的平均精度的平均值和平均AP值。其计算公式如下：

其中，S为所有类别的个数，分母为所有类别的ap之和。本研究的目标检测目标仅为一种麻鸭，因此为AP = mAP。

YOLO系列的落地 | YOLOv7+注意力机制在农业上的应用（一）

1、简介