开发者社区> 【方向】> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

间谍卫星的基础?YOLT——利用卷积神经网络对卫星影像进行多尺度目标检测(Part I)

简介: 利用卷积神经网络(CNN)对卫星影像进行多尺度目标检测,该文是在YOLO模型的基础上改进提出YOLT模型,该方法极大的提高了背景区分,并能够在不同尺度和多个传感器上快速检测出物体。
+关注继续查看

本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译。

以下为译文: 9b10b6d6a2c8e92f9d4dbdea63c5a0ee790a86bb

利用卷积神经网络,对于卫星影像中多尺度目标检测而言,你只需要看两次(Part I

在大片物体中检测小物体一直是卫星图像分析感兴趣的主要点之一。早期的工作是利用本地滑动窗和HOG特征描述确定船的位置,但存在的缺点是高度不均匀背景下分辨不清晰。为了解决这一问题,实现了一种基于你只要看两眼的物体检测流水线,该方法极大的提高了背景区分,并能够在不同尺度和多个传感器上快速检测出物体。

卫星图像目标检测概述

卫星图像库与ImageNet数据库不一样,存在四个问题:卫星图像的对象往往是非常小的并围绕成一个圆、输入图像巨大、训练数据相对缺乏;积极的一面是物体的物理和像素规模是实现已知的,观察角度也是低变化的。

0296b2799d992953741ea2fa5b1d356addb808ae 

1. 《纽约时报》截图显示俄罗斯设计武器实物模型愚弄遥感仪器。

HOG船检测挑战

HOG+滑动窗物体检测方法在前期工作中取得瞩目成果,为了探索该方法的限制,将其应用于场景不太均匀的背景。

99dd33dd6aac12a5fdd58ee12fe514f9c74cc45e 

2.HOG+滑动窗应用于不同传感器的结果。假阴性显示是红色,手工标记显示是黄色,误报显示是蓝色,真阳性显示是绿色

使用深度学习进行物体检测

在卫星图像上采用YOLO框架去完成目标检测,该框架使用了单一的卷积层(CNN)去预测类别和边界。这种快速方法结合获取背景信息的能力使得其应用在卫星图像中是引人注目的。

CNN与滑动窗结合的方法可以取得客观的效果,但是难以计算。另外一个缺点是,滑动窗只可以看到图像的一小部分,从而丢弃有用的背景信息。该YOLO框架解决了背景差异的问题,并扩展成大的数据集。

ddefdcf7f3e9d8898f7dfcf63965a966928bcdf0 

3. 说明YOLO框架的缺省

该框架确实是有些局限性,但在文献中封装了三个问题,具体问题可以参看文献和原文

针对这些问题,提出了YOLT框架,解决了上述的三个问题,分别使用滑动窗上采样以寻找小的物体、在多尺度上运行探测器;增加训练数据;定义新的网络架构使得最后的卷积层有更紧密的网格。

YOLT框架的输出的后处理结合了各种图形芯片,这些修改使得每秒44帧的速度降低为每秒18帧。如果寻找密集物体不是必须的,最大图形尺寸应该会增加2-4倍。

YOLT训练数据

训练数据收集大图像中的小块,每个对象的标签是由边界框和类标识符组成。

主要集中以下四类:

  •  开放水域的船
  •  在港湾的船
  •  飞机
  •  飞机场

b7ad17937438d699d2b99bb7bf75d915384caefa

4. YOLT训练数据

fa416cef697e1dcd85e653ba34753ca96198a39e 

5. 训练图像在色相和饱和度上旋转和缩放

YOLT目标检测结果

对评估测试图像使用相同的评价标准;对于海上区域的评估,关注相同的区域。在硬件上仿真后,与之前方法的结果相比,HOG+滑动窗是用来训练分类船和船的航向,而YOLT是用来训练产生船和飞机的位置信息。具体性能分析请见原文。

d97af6f2776f5011ae89c2e997aca4b9fcf79429 

6. YOLTAOI1的性能

703df51bb612d0f4f8d2303eaa68c1cb46117c41 

7. YOLTAOI2的性能

3066516990394ec10e40c07ba8056b7722c573a1

8. YOLTAOI3的性能 

0d0446626d702de91513ad700721858fe5f7550e

9. YOLTAOI4的性能

  c1dcdf6f767eed85acbcba4d77853cec35b8dcae

10. YOLT在美济礁使用如图2所示的相同卫星测试的结果

a9d600c9c2f9913ae5a7b2090d09153742293956 

11. YOLT应用到苏伊士运河的南入口的卫星图像

 25b00743795196e1fbccb721f5f2c251806176a4

12. YOLT检测应用到DigitalGlobe图像中,上图拍摄于希斯罗机场

结论

这篇文章中,展示了一个经典机器学习技术应用于卫星图像目标检测的局限性;为了解决这个局限性,实现了一个完全卷积神经网络分类(YOLT)去快速获得卫星图像中的船只和飞机的位置,在稀疏场景的分类性能证明比HOG+滑动窗方法更好。

Part II部分,将探讨在完全不同尺度上检测目标,比如在船只、飞机和跑道上的挑战。

        数十款阿里云产品限时折扣中,赶紧点击领劵开始云上实践吧!

文章原标题《You Only Look Twice — Multi-Scale Object Detection in Satellite Imagery With Convolutional Neural Networks (Part I)》,作者:Adam Van Etten

文章为简译,更为详细的内容,请查看原文

                                             翻译:海棠

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
【论文速递】BEVFormer: 通过时空变换器从多相机图像中学习BEV表示
【论文速递】BEVFormer: 通过时空变换器从多相机图像中学习BEV表示
0 0
登顶KITTI和NuScenes | 2DPASS:2D先验辅助的激光雷达点云语义分割!ECCV2022
语义分割在大规模室外场景理解中起着至关重要的作用,在自动驾驶和机器人技术中有着广泛的应用[1-3]。在过去几年中,研究界投入了大量精力,使用相机图像[4-7]或激光雷达点云[2,8-12]作为输入来理解自然场景。
0 0
Nuscenes SOTA!BEVFormer v2: 通过透视监督使流行的图像Backbones适应BEV识别!
作者提出了一种具有透视监督的新型鸟瞰图(BEV)检测器,它收敛更快,更适合目前的图像主干网络。现有的SOTA BEV检测器通常与某些深度预训练的主干网(如VoVNet)相连,阻碍了图像backbones和BEV检测器之间的协同作用。为了解决这一限制,论文优先考虑通过引入透视空间监督来简化BEV检测器的优化方案。为此提出了一种两级BEV检测器,其中来自透视头部的proposal被输入鸟瞰头部,用于最终预测。为了评估模型的有效性,作者进行了广泛的消融研究,重点是监督的形式和拟议检测器的通用性。所提出的方法在传统和主流图像主干上得到了验证,并在大规模nuScene数据集上获得了新的SOTA结果
0 0
ECCV2022 | 激光雷达点云的开放世界语义分割
三维激光雷达传感器在自主车辆感知系统中发挥着重要作用。近年来,激光雷达点云的语义分割发展非常迅速,受益于包括SemanticKITTI和nuScenes在内的注释良好的数据集。然而,现有的激光雷达语义分割方法都是封闭集和静态的。闭集网络将所有输入视为训练过程中遇到的类别,因此它会错误地将旧类的标签分配给新类,这可能会带来灾难性后果。
0 0
最新综述!分析用于实时车载激光雷达感知的点云深度学习表示(空间结构/光栅化/坐标系)
随着帧速率、点云大小和传感器分辨率的增加,这些点云的实时处理仍必须从车辆环境的这张日益精确的图片中提取语义。在这些点云上运行的深度神经网络性能和准确性的一个决定因素是底层数据表示及其计算方式。本文调查了神经网络中使用的计算表示与其性能特征之间的关系,提出了现代深度神经网络中用于3D点云处理的LiDAR点云表示的新计算分类法。使用这种分类法,对不同的方法家族进行结构化分析,论文揭示了在计算效率、内存需求和表示能力方面的共同优势和局限性,这些都是通过语义分割性能来衡量的。最后,论文为基于神经网络的点云处理方法的未来发展提供了一些见解和指导。
0 0
Nuscenes和KITTI双SOTA!3D目标检测中的同质多模态特征融合与交互(ECCV2022)
多模态3D物体检测一直是自动驾驶领域中的一个活跃研究课题,然而,探索稀疏3D点和密集2D像素之间的跨模态特征融合并非易事,最近的方法要么将图像特征与投影到2D图像平面上的点云特征融合,要么将稀疏点云与密集图像像素组合。这些融合方法经常遭受严重的信息丢失,从而导致性能次优。为了解决这些问题,本文构建了点云和图像之间的均匀结构,通过将相机特征转换到LiDAR 3D空间中来避免投影信息丢失。论文主要提出了一种用于三维目标检测的同质多模态特征融合与交互方法(HMFI)。具体来说,首先设计了一个图像体素提升模块(IVLM),以将2D图像特征提升到3D空间中并生成均匀图像体素特征。
0 0
【论文解读】——基于多尺度卷积网络的遥感目标检测研究(姚群力,胡显,雷宏)
【论文解读】——基于多尺度卷积网络的遥感目标检测研究(姚群力,胡显,雷宏)
0 0
CV之MobiLenet:基于openpose利用CMU/MobilenetV2算法实现对多人体姿态(2019湖人勒布朗詹姆斯扣篮)实时估计检测
CV之MobiLenet:基于openpose利用CMU/MobilenetV2算法实现对多人体姿态(2019湖人勒布朗詹姆斯扣篮)实时估计检测
0 0
间谍卫星的基础?YOLT——利用卷积神经网络对卫星影像进行多尺度目标检测(Part I)
利用卷积神经网络(CNN)对卫星影像进行多尺度目标检测,该文是在YOLO模型的基础上改进提出YOLT模型,该方法极大的提高了背景区分,并能够在不同尺度和多个传感器上快速检测出物体。
1787 0
+关注
【方向】
欢迎各位对内容方向及质量提需求,我们尽量满足,将国外优质的内容呈现给大家!
文章
问答
文章排行榜
最热
最新
相关电子书
更多
深度学习论文实现:空间变换网络-第一部分
立即下载
基于视觉推理的视频理解
立即下载
基于神经网络的语言合成
立即下载