基于计算机视觉的方法主要是通过摄像机对场景中的人进行连续监控,然后对采集的视频数据进行特征提取,并使用相应的算法进行跌倒的检测。最早基于视觉的跌倒检测系统采用监督学习算法,将捕捉到的图像/帧分类为跌倒或未跌倒,如 Yu 等人提出了一种新颖的基于计算机视觉的跌倒检测系统,用于监测老年人在家庭护理中的应用,采用背景减法提取前景人体,并通过一定的后处理对提取结果进行改进,利用椭圆拟合的信息和椭圆轴线上的投影直方图作为特征来区分人体的不同姿态,然后将这些特征输入一个有向无环图支持向量机进行姿态分类,然后将其结果与导出的地板信息结合起来检测摔倒,从一个 15 人的数据集中,在模拟的家庭环境中跌倒检测率为 97.08%和错误检测率为 0.8%。库向阳等人提出了基于 CNN 和 LSTM 混合模型来检测跌倒行为,CNN 用来提取序列视频帧的空间信息,LSTM 提取时序性信息,在 CASIA 数据集上的识别率达到了 94.44%。HAN 提出了一种基于 MobileVGG 的双流跌倒检测方法。一种是基于人体运动特性的跌倒检测流,另一种是本文提出的改进的轻量化 VGG 网络,命名为 MobileVGG,MobileVGG 通过点卷积、深度卷积和点卷积的简化和高效的组合来替代传统的卷积,构建为一个轻量级的网络模型,为了克服深度模型中梯度消失和梯度回流的阻碍,设计了层间的剩余连接。实验结果表明,所提出的双流轻量化跌倒分类模型在区分相似的日常活动(如躺下)和减少记忆占用方面优于现有方法。Lu 等人开发了一种基于三维卷积神经网络(3D CNN)的跌倒检测方法,该方法只使用视频运动数据来训练自动特征提取器,可以绕过深度学习解决方案对大量跌倒数据集的要求,二维 CNN 只能对空间信息进行编码,采用的三维卷积可以从时间序列中提取运动特征,为了进一步定位每一帧中感兴趣的区域,引入了一种基于 LSTM 的空间视觉注意机制。使用没有跌倒样例的运动数据集 Sports-1m 训练 3D CNN,然后结合 LSTM 训练有跌倒数据集的分类器,在不同的数据集上显示了优越的性能。Yao 等提出了头部和躯干的分割方法,分别提取头部和躯干的几何特征,解决了基于几何特征的传统方法的不稳定性,然后使用浅层的 CNN 对参数进行收敛,获得了较好的结果; Zhang 等人提出了一个 5 点倒立摆模型,将视频中的人先使用 CNN 提取人体关键点,并简化成一个用骨架 5 个点表示的结构,然后通过分析连续帧中结构的时空变化,建立人体行为的时空演化图。利用一些数学和物理学指标,指标结合一些公式,进行分类从而判断是否发生了跌倒。Chen 等人提出了一种基于对称原理的意外跌倒重组方法,使用 OpenPose 算法提取人体骨骼信息,通过髋关节中心的下降速度、人体中心线与地面的角度、人体外矩形的宽高比三个关键参数来识别下落。FOUZI HARROU 利用反映人体形状变化的相关像素特征来检测人体跌倒。具体来说,人体被分为五个分区,对应五个部分占用区域。对于每一帧,计算面积比,并作为跌倒检测和分类的输入数据。从统计的角度将跌倒检测作为异常检测问题进行处理,设计了一种有效的基于广义似然比(GLR)的跌落检测方法,再使用支持向量机算法应用于检测到的跌倒特征上,以识别跌倒的类型。CHEN 等人针对复杂背景下基于视觉数据的跌倒事件检测,与大多数传统的背景减法依赖于背景建模不同,Mask R-CNN 方法首先用于准确提取噪声背景中的运动目标。然后,提出一种注意引导的双向 LSTM 模型用于最终的跌倒事件检测,最终在公共数据集和自构建数据集上进行了验证,通过对算法性能的评估,并与其他最先进的方法进行比较,表明所提出的设计是准确和鲁棒的,这意味着该算法适用于复杂情况下的跌倒事件检测任务。Wang 等人提出了一种基于视觉的双通道特征融合的跌倒检测方法,将跌倒事件分为两部分:跌倒时状态和跌倒后状态,分别从动态和静态的角度描述跌倒事件。首先,利用目标检测模型(YOLO)和人体姿态检测模型(OpenPose)进行预处理,获取人体关键点和位置信息。然后设计双通道滑动窗口模型,提取人体的动态特征(质心速度、上肢速度)和静态特征(人体外椭圆)。然后,采用多层感知机(Multilayer Perceptron)和随机森林的算法分别对动态特征数据和静态特征数据进行分类。最后,结合分类结果进行跌倒检测,实验结果表明,在 UR 跌倒检测数据集和 Le2i 跌倒检测数据集上,该方法的准确率分别达到 97.33%和 96.91%。
基于计算机视觉的方法的优点在于不需要老人佩戴额外的设备,也不局限于某一个房间,只要在有摄像头的地方就可以进行检测和使用,另外由于机器学习和深度学习的发展,准确性上也得到了大幅提升,缺点在于可能会采集到人的隐私信息,算法复杂度大,检测时间较长。