视频事件检测(上)| 学习笔记

简介: 快速学习视频事件检测(上),介绍了视频事件检测(上)系统机制, 以及在实际应用过程中如何使用。

开发者学堂课程【高校精品课-华中科技大学 -智能媒体计算视频事件检测(上)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/811/detail/15704


视频事件检测(上)


基于内容的视频分析

开始讲了事件的检视频,视频占了多媒体信息的绝大部分。而在视频里面真正有价值的内容很少,尤其是监控视频说满大街都是摄像头,这里面有很多拍的内容没什么价值,比如说晚上连续拍的没一个人出现,这样的背景其实没什么重要意义。

真正关心的应该是在连续拍摄的视频里面,是不是有一些感兴趣的所谓的一些不同寻常的事件出来,这就是视频检测什么叫不同寻常,其实不同的领域有不同的理解,比如在体育视频里面,比如足球进球就是一个不同寻常的事情,而在监控视频里面,比如说打打架斗殴,然后群众的聚集就是一类事件。在交通领域里面,比如说车祸等等它也是事件,如何对这些事件进行准确的检测,应该就是整个视频的应用,以及视频分析的最核心的内容

视频事件的检测用在很多方面异常事件检测

比如监控视频异常事件检测,刚才说交通突发事件,人群的聚集活动,医疗监控里面的一些非规范的行为,还有工厂,最近在一些电厂的安全的监控,通过视频来分析的不安全的行为,发现其实大有可为,比如说的安全帽,安全带的或者穿的是不是规范等等,还有很多其他的内容。用这些视频事件,还可以用在很多领域,比如说在互联网的视频的审查里面,有没有暴力行为,色情行为,这都是属于事件检测的范畴。

视频里面的事件检测,足球进球,角球,篮球里面的两分球,三分球,包括罚球等等,网球里面说抢七局破发点,ace 球,还有比如说羽毛球里面的 ace 球,还有扣球等等,这都是用户感兴趣的内容,都可以把它归为的视频的事情。这是一个交通的交通的马,沿着高速公路、大马路到处都是监控,想要是不是有异常发生看这个能不能自动检测出来这个车祸地方,多典型,剩下的想这样的场景一定是非常少,找到这样的事件之后,那些大量的没用的那些数据就不用保留,或者已经非常的把数据渠道。

image.png

再比如这种人群聚集的行为,它可能发生一些异常的事情,就要引起引起高度警惕。

还有像工厂里面操作,没有戴安全帽等等。带了,衣着不够合理,就像在参观的时候,不能穿裙子,不能穿高跟鞋,还有一些厂子里边有人玩手机,有些值班的人员睡觉等等,都是一些可以影响生产安全这种事情

image.png

比如足球比赛里面的进球,很多足球迷很关心这样的镜头整个过程怎么这样在没有人辅助的情况下,给它自动导出来。整个这个视频的镜头的回放,能看出来是谁进的球。这些内容让计算器去自动识别是不是有一定的难度。

image.png

比如说这个篮球里面发球跳投三分怎么来判断的三分球怎么来判断它是三分球,看屏幕还是看整个球场的这些标记线,球是不是进了,怎么去识别是通过的去检测篮筐,去检测球门等等。通过上面的讲解,大家实际上要找到这些特定的事件,它的难度是很大的,正是因为难度大,现在才需要的人工智能和机器视觉的知识。现在深度学习的快速发展,已经会找到这些事件,提供了一些可能,但是通用的这种解法是没有,通常是去解决特定领域的视频事件的检测,比如说针对特定场景的监控视频,有大量的领域知识做辅助的

交通里面,因为它马路它是规则,对这个这个车应该在这个车如果到了对面的车道,那肯定是异常。

这些规则有了以后再进行,这节课内容结合体育视频的分析来看看怎么去找视频事件,比如体育视频,以足球为例,它是分节的,上下两节前半场,上半场和下半场,完整的体育比赛通常可以分成小节,篮足球,这样篮球也可以分解,足球可以分解。这就为结构化提供依据,而事件,又通常发生在一个镜头,就是先验知识啊,为什么在一个镜头,说摄像机拍摄这个人,可不可能拍进球的时候把摄像机调去拍观众如果是这样的导播是可以下岗了。

而真正后面看到电视转播的时候是由导播把两个镜头拼在一起,它一般也是把那个进入那个时间放完之后,再去把另一个摄像机拍到了观众的反应,把他回放出来,有了这些知识以后,再去判断怎么来检测特定的事件

大概经过了30年的发展,在体育视频里面主要分成三种类型检测,第一种是单模的。所谓的模态,比如说要么用音频,检测进球是否上升,是否有观众的欢呼声是不是有激动的解说这都可以作为进球的线索,视觉特征要找一个镜头的类型找球场的区域找回比如说要去检测独门其实最早做这件事都是通过视觉上早期判断计算机视觉的人在球场上找到这个球门去再把球门找到再把球门线找到再把球找到来判断球是不是进去了,到最后的检测率准确率几乎接近于零因为球门线大部分已经被球员遮住了,球也被球员遮住了,进球那一刻通常既检测不到球也检测不到球门线。

第三依赖于外面的文本比如说现场的文字的报告,这都是计算的限制,早期单纯视觉,后来发现单纯视觉做不到,后来想能不能多模态一起做,现在有个很流行的词,叫做跨媒体智能。

不是进球,从检测球门检测检测不出来,就通过观众的欢呼声等等这些,先找到可能是进球的这个镜头。

找到之后,再依赖于,比如说比分的变化,原来是1 : 1,现在变成了2 : 1,那说明一进去。在到底是谁进的球,识别不出来,能不能依靠解说员的语音,把语音识别出来,或者把这个现场报道的这个实时的文字直播里面的文字直播找出来,就卡在第25分钟建功立业,这已经是本场比赛攻入第三粒球,这句话就为找到谁进的球提供依据。

近十年深度学习的发展,学者开始尝试用深度学习来检测事件,这里主要用两个技术,一个是大数据的学习,有大量的样本。实验室在足球领域大概研究了20年,积累了大概200场视频比赛的数据还有一个叫提取的不同层次的特征,这个特征是深度学习的提特征的不同层次,这些层次面的若干参数怎么去设计,怎么去确定实际上是通过大数据这些样本去训练实际是通过大数据样本训练得到的

相关文章
|
数据库
【latex】在Overleaf的IEEE会议模板中,快速插入参考文献
【latex】在Overleaf的IEEE会议模板中,快速插入参考文献
4365 1
|
机器学习/深度学习 算法 计算机视觉
深度学习目标检测系列:一文弄懂YOLO算法|附Python源码
本文是目标检测系列文章——YOLO算法,介绍其基本原理及实现细节,并用python实现,方便读者上手体验目标检测的乐趣。
55248 0
|
8月前
|
存储 人工智能 自然语言处理
告别文字乱码!全新文生图模型Qwen-Image来咯
通义千问团队开源了Qwen-Image,一个20B参数的MMDiT模型,具备卓越的文本渲染和图像编辑能力。支持复杂中英文文本生成与自动布局,适用于多场景图像生成与编辑任务,已在魔搭社区与Hugging Face开源。
1566 2
|
10月前
|
人工智能 安全 物联网
释放终端潜能----端侧AI模型
端侧AI将智能直接部署于终端设备,实现毫秒级响应、极致隐私保护与显著成本优化。其核心优势包括极速响应(告别网络延迟)、隐私安全(数据不出本地)及成本优化(减少云端依赖)。通过模型小型化、硬件感知优化、高效推理引擎和端云协同等关键技术,端侧AI在有限资源下保持高性能,
1646 0
释放终端潜能----端侧AI模型
|
机器学习/深度学习 编解码 监控
目标检测实战(六): 使用YOLOv8完成对图像的目标检测任务(从数据准备到训练测试部署的完整流程)
这篇文章详细介绍了如何使用YOLOv8进行目标检测任务,包括环境搭建、数据准备、模型训练、验证测试以及模型转换等完整流程。
26064 59
目标检测实战(六): 使用YOLOv8完成对图像的目标检测任务(从数据准备到训练测试部署的完整流程)
|
机器学习/深度学习 人工智能 运维
基于AI的自动化事件响应:智慧运维新时代
基于AI的自动化事件响应:智慧运维新时代
634 11
|
机器学习/深度学习 运维 监控
深度学习之视频内容理解
基于深度学习的视频内容理解(Video Content Understanding, VCU)是一项关键技术,旨在通过神经网络模型自动分析、解读和提取视频中的语义信息。
1279 10
|
机器学习/深度学习 人工智能 算法
昇腾AI行业案例(一):基于AI图像处理的疲劳驾驶检测
在本实验中,您将学习如何使用利用CV(Computer Vision)领域的AI模型来构建一个端到端的疲劳驾驶检测系统,并使用开源数据集进行效果验证。为此,我们将使用昇腾的AI硬件以及CANN等软件产品。
716 3
|
机器学习/深度学习 传感器 人工智能
开源AI视频监控系统在监狱安全中的应用——实时情绪与行为分析、暴力预警技术详解
针对监狱环境中囚犯情绪波动和复杂人际互动带来的监控挑战,传统CCTV系统难以有效预警暴力事件。AI视频监控系统基于深度学习与计算机视觉技术,实现对行为、情绪的实时分析,尤其在低光环境下表现优异。该系统通过多设备协同、数据同步及自适应训练,确保高精度识别(95%以上)、快速响应(<5秒),并具备24小时不间断运行能力,极大提升了监狱安全管理的效率与准确性。
1294 1