论文Express | AI+云+无人机=“云中监狱”：剑桥大学个体暴力行为实时监测-阿里云开发者社区

关于AI技术引起的道德话题近来颇受争议，比如利用算法识别犯罪团伙或者，利用图像识别判定同性恋。

近日，剑桥大学发布了一篇论文，提出了一个有意思的观点，即利用混合深度学习网络+云计算+无人机，搭建了一个能实时监测个体暴力行为的无人机监控系统。

网红博主爱可可老师评价道，这篇论文的观点值得及时反思的道德危机，AI+云+无人机=空中监狱。

论文中监控系统的实时画面

df1fd7c934c14cebd321e611321803d76f79589d

可以在视频中看到，论文中提出的无人机监控系统，可以在人群中准确检测到发生肢体冲突的个体，并对其进行标记。如果该系统能推广开来，将具有非常广阔的应用前景。

当然，除了对暴力行为进行监控，无人机的这一监控特征也很容易被带入到对个人行为的监督下。因此，部分读者也表达了担忧，毕竟前段时间传得沸沸扬扬的AI杀手机器人视频中，充当夺命杀手的也是一些小型无人机。

0029fae7349036968e769d656652e1a0c2098a09

a8be598cc7660b21d532a84978517e85faf69a67

以下是论文精华内容：

无人机系统已经广泛部署于各种执法机构，用来监视敌人，监控外国贩毒集团，进行边境控制等。本文介绍了一种实时无人机监控系统，用于在公共场所对个体暴力行为的识别。

系统首先使用FPN从空中图像中检测人群，针对图像中的有人区域，利用本文提出的ScatterNet混合深度学习网络（SHDL）进行人体姿态估计；然后根据估计的四肢之间的方向确认施暴个体。

所提出的深度网络能够利用ScatterNet和少量标记样本的结构先验快速学习姿态表示。系统通过在云端处理无人机图像实时监测施暴个体。本研究还介绍了用于训练深度网络的空中个体暴力行为数据库，为研究人员使用深度学习进行空中监控提供帮助。最后，本文提出的基于姿态估计的暴力个体识别性能和目前先进的技术进行了比较。

个体暴力行为数据集

本研究提出了一种已标注的个体暴力行为（AVI）数据集，以用于本文提出的SHDL网络学习姿态估计。数据集由2000个图像组成，每张图像包含2~10个人。完整的数据集由10863个人组成，其中5124（48%）人参与了如下图1所示的拳打、刀刺、射杀、脚踢和扼喉这五种暴力行为中的一种或者多种。

空中图像帧中的每个人都用14个关键点进行标注，这14个关键点也是所提出的网络用作学习姿态估计的标签，如图2所示。这些活动由25名年龄在18-25岁之间的受试者中完成。图1中的图像由Parrot无人机在2米、4米、6米和8米的高空拍摄并记录。

f1dbfeef0d5e9ca73230c7779dd91c497ba0e436

图1

上图展示了AVI数据集中的暴力行为，即（从顶部开始顺时针方向）：（1）扼喉，（2）拳打，（3）脚踢，（4）射杀，（5）刀刺。其中，刀刺行为在拍摄时同一帧图像中出现了4个人。

e2e9544ae48ebf4c37dbbca374b697af00f16a2c

图2

左图表示在人体上标注的14个关键点。人体点描述为，面部区域（紫色）：P1-头，P2-颈；臂区域（红色）：P3-右肩，P4-右肘，P5-右手腕，P6-左肩，P7-左肘，P8-左手腕；腿区（绿色）：P9-右髋，P10-右膝，P11-右脚踝，P12-左髋，P13-左膝盖，P14-左脚踝；右图显示了用于捕获数据集中图像的Parrot AR无人机和图像中一些已标注的关键点的特写。

无人机监控系统

该系统首先使用FPN从无人机记录的图像中检测人类。然后利用所提出的SHDL网络来估计检测到的个体姿态。最后，估计姿态的四肢之间的方向用来识别暴力个体。系统采用云计算来实现实时识别。

人群检测

无人机监控系统充分利用FPN，以快速地从无人机记录的图像中检测到人群。特征金字塔通过利用卷积网络特征层的金字塔形状来检测人群，同时创建了一个在任何尺度上都具有极强语义的特征金字塔。其结果是一个在所有级别上都具有丰富语义的特征金字塔，并且可以从单个输入图像尺度快速构建。

ScatterNet混合深度学习网络

ScatterNet (前端)

ScatterNet特征在尺度上更为密集，因为它们是从多分辨率图像中分离出来的，大小是输入图像的1.5~2倍。下面给出了单输入图像的参数化DTCWT ScatterNet的公式，然后可以应用于每一个多分辨率图像。

为了建立一个具有平移不变性的姿态表示，对L2层的滤波信号（复模量）的实部和虚部逐点求模：

566539646213c6bb58ccef7e66de3e87c57b9deb

然后对所有从第一层中提取的方向表示进行参数对数变换，k_j表示第j个信号的参数k，初始值j=1。通过引入相对对称来降低异常值的影响，如下所示：

066fa58d2528c7105f39d75b9b04410e9d56caa8

接下来，计算了|U1[λ_m=1]|的局部平均值，该值集合了构建所需的平移不变表示的系数：

f4e5b759528e303b0f9302358eb837cc39e7536e

通过在第二层进行级联小波滤波，提取了由平滑处理导致的高频分量损失。并在这些特征中引入了平移不变性。

L0，L1，L2处的散射系数为：

ffe6389b57c90241ca67eccd0fe73f8e29104a1e

通过对位置，角度和尺度变量联合滤波，得到了旋转和尺度不变性。

在L0、L1和L2中提取的每个多分辨率的特征被串联起来，作为回归网络的输入，来学习人类姿态估计的高级特征。ScatterNet特征帮助所提出的SHDL更快地收敛，因为回归网络的卷积层可以从学习的开始学习更复杂的模式。

基于结构先验的姿态估计（后端）

SHDL网络的回归网络利用ScatterNe不变t特征从AVI数据集中学习姿态估计。SHDL的回归网络由四个卷积层(L3到L6层)、两个完全连接、归一化和最大池层组成，如下图所示。

0ec3b81e9125c8546c726cc2c5d428e210bb84fb

显示了可用于检测公共场所和大型集会场所的暴力个体的姿态估计模型框架。

DSS框架首先使用无人机记录的图像，利用金字塔特征网络发现图像中的人体。包含人体的图像区域被作为所提出的SHDL网络的输入，以检测人体上的14个关键点来进行姿态估计。所提出的SHDL网络使用ScatterNet(前端)从L0、L1和L2输入的区域中手工提取特征，L0、L1和L2在两个尺度和六个固定方向上进行DTCWT滤波。

将上述特征作为具有32，32，64和64的回归网络的4个卷积层(L3，L4，L5,，L6)(后端)的输入。每个回归网络卷积层都用基于主成分分析（PCA）的结构先验进行初始化，其中结构先验具有相同数目的滤波器。PCA层可以避免棋盘式滤波器(红色显示)，保证其不会作为回归网络的先验使用。

与原始的粗到细回归网络[1](为了获得SHDL而被修改)相比，ScatterNets和结构先验改进了所提出的SHDL网络的训练。检测人体的14个关键点进行连接并构建骨架结构。为ScatterNet手工制作的滤波器、学习的结构PCA先验以及学习的回归网络滤波器如上图所示。

结构先验

SHDL网络的回归网络的每个卷积层(L3到L6)被结构先验初始化以加速训练。利用PCANet[4]框架获取每一层的结构先验，该框架通过最小化以下重构误差获得一组标准正交滤波器：

b41db2584bff67d1bc899cb47efe251f850b5ee1

其中X为从N个训练特征中抽取的小块，I_K表示K*K的单位矩阵。上式的解简化表示了用特征分解得到的XXT的K个主要特征向量。

个体暴力行为检测

将SHDL网络识别的14个关键点连接起来形成一个骨架结构，如上图所示。骨架结构的四肢之间的方向如下图所示。支持向量机算法（SVM）在这些方向向量上进行训练，分成六个类（五个暴力活动和一个中性活动)，以执行多类分类。在测试期间，骨骼四肢之间的方向作为SVM的输入，SVM将人群分为中性或最可能出现暴力行为两种标签。

dea66c4bb45711c5b4024f961e865a1403d5f96a

图中显示了与人对应的骨骼。在这个结构中，SVM通过不同的肢体之间的角度(绿色虚线表示)来识别参与暴力活动的人群。

无人机图像采集和云处理

AR无人机2.0由两个摄像机和惯性测量装置（IMU）组成，惯性测量装置由3轴加速度计、3轴陀螺仪和3轴磁强计，以及超声波和基于压力的高度传感器组成。利用亚马逊云端对无人机记录的图像进行计算，实现实时识别。

实验结果

姿态检测器

在80类COCO检测数据集上进行预先训练，得到FPN网络，将其用于检测AVI数据集中无人机记录的人群。FPN网络能够在10863人中检测到10558人，准确率为97.2%。

SHDL训练和参数设置

针对FPN网络检测到的图像区域，通过减去该图像区域的均值并除以它的标准差进行标准化，标准化后的图像大小为120*80。

ScatterNet

将上述图像区域作为ScatterNet(SHDL前端)的输入，该ScatterNet使用DTWC滤波器在2个尺度6个固定方向上提取L0，L1，L2中的不变边缘表示。

具有结构先验的回归网络

该网络在随机选取的6334个图像区域(60%)上进行训练，对2111个图像区域(20%)进行验证，对剩余的2113个图像区域(20%)进行测试。网络参数如下：基础学习速率是10^(−5)，经过20次迭代之后，减少到10^(−6)，dropout是0.5，批尺寸是20，迭代(回合)的总数是90。

姿态关键点检测性能

在标记的数据集上将检测到的14个关键点的坐标与其地面真值进行比较，从而评估SHDL网络的姿态估计性能。如果关键点与地面真值标记的关键点的距离在d像素的设置范围内，则该关键点被认为是位置正确，如图5所示。

780145215ac40d5727d19c762cbe820233f1b61f

图3

上图通过检测关键点展示了姿态估计的性能，包括(a)手臂区域(构成手腕、肩膀和肘部)，(b)腿部区域(包括脚踝、膝盖和髋部)以及(c)面部区域（头部和颈部）的关键点。

手臂、腿、面部区域的关键点检测分析如下：

上肢区域

图3(a)表示SHDL网络在d=5的像素距离下，可以检测到手腕区域关键点，准确率在60%左右。在相同的像素距离下，肘关节和肩关节区域的检测准确率分别在85%和95%左右(d=5)。

下肢区域

图3(b)表明，SHDL网络在d=5的像素距离下检测到几乎100%的髋部关键点。膝关节关键点检测准确率在85%~90%之间，踝关节关键点检测准确率在85%左右。

面部区域

如图5(c)所示，在d=5的像素距离下，该算法对颈部关键点(P2)的检测更为准确，准确率为95%左右，头部的关键点的准确率(P1)为77%左右。

AVI数据集上SHDL网络的人体姿态估计性能如表1所示。从表中可以看出，SHDL网络基于距离地面真值d=5像素的14个关键点来估计人体的姿态，有87.6%的准确度。

365a9cea7baf1b071cee910ff938d8fd6fdfc607

个体暴力行为识别

用带有高斯核的SVM对方向向量进行训练，其中方向向量是由每类的暴力行为和中性类构成，随机选择6334（60%）个人类姿态实现多类分类，SVM参数选取(c)为14，将gamma参数设置为0.00002，对训练集进行5倍交叉验证。如表2所示，AVI数据集上每类暴力行为的分类准确率为4224（40%）。

cfce8410de01010b066c9f5141a898fe090f6122

表2 表格展现了AVI数据集上暴力行为分类的准确率

接下来，每个图像中参与暴力活动受试者的数目分类准确率如表3所示。

cfc67856b93dc12d5c8efb986c8a0d236ef8bf00

表3 展示了在AVI数据集上，随着参与暴力活动的人数增加时的分类准确率。

上表给出的结果令人鼓舞，因为系统更可能在一个图像框架中遇到多个人。下图显示用于有不同数目的人参与暴力活动的图像的DSS框架。

dbb2d64ecd55961d405144a53edfed8ea856bda5

该图显示了具有多个人参与的暴力活动的空中图像的DSS的性能。暴力个体用红色表示，中性个体用青色表示。

结论

本文提出了一种实时无人机监控系统框架，该框架可以从空中图像中检测一个或多个参与暴力活动的个体。该框架首先使用FPN检测人群，然后使用提出的SHDL网络估计个体的姿态。最后用SVM算法处理估计的个体姿态从而识别暴力个体。

本文提出的SHDL网络，使用具有结构先验的ScatterNet特征来实现少量标记样本的加速训练。利用少量标记样本实现姿态估计，为该框架降低了收集标记样本的成本。本文还介绍了AVI数据集，为研究人员使用深度学习进行空中监控提供帮助。在同一AVI数据集上，所提出的DSS框架识别结果高于目前先进的技术。该框架将有助于发现在公共场所和集聚场所参与暴力活动的个人。

原文发布时间为：2018-06-8

本文作者：文摘菌

本文来自云栖社区合作伙伴“大数据文摘”，了解相关信息可以关注“大数据文摘”。

论文Express | AI+云+无人机=“云中监狱”：剑桥大学个体暴力行为实时监测

大数据文摘

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料