开发者学堂课程【高校精品课-华中科技大学 -智能媒体计算:视频事件检测(上)】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/811/detail/15704
视频事件检测(上)
基于内容的视频分析:
开始讲了事件的检视频,视频占了多媒体信息的绝大部分。而在视频里面真正有价值的内容很少,尤其是监控视频说满大街都是摄像头,这里面有很多拍的内容没什么价值,比如说晚上连续拍的没一个人出现,这样的背景其实没什么重要意义。
真正关心的应该是在连续拍摄的视频里面,是不是有一些感兴趣的所谓的一些不同寻常的事件出来,这就是视频检测。什么叫不同寻常,其实不同的领域有不同的理解,比如在体育视频里面,比如足球进球就是一个不同寻常的事情,而在监控视频里面,比如说打打架斗殴,然后群众的聚集就是一类事件。在交通领域里面,比如说车祸等等它也是事件,如何对这些事件进行准确的检测,应该就是整个视频的应用,以及视频分析的最核心的内容。
视频事件的检测用在很多方面异常事件的检测:
比如监控视频异常事件检测,刚才说的交通突发事件,人群的聚集活动,医疗监控里面的一些非规范的行为,还有工厂,最近在一些电厂的安全的监控,通过视频来分析它的不安全的行为,发现其实大有可为,比如说它的安全帽,安全带的或者穿的是不是规范等等,还有很多其他的内容。用这些视频事件,还可以用在很多领域,比如说在互联网的视频的审查里面,有没有暴力行为,色情行为,这都是属于事件检测的范畴。
视频里面的事件检测,足球进球,角球,篮球里面的两分球,三分球,包括罚球等等,网球里面说抢七局,破发点,ace 球,还有比如说羽毛球里面的 ace 球,还有扣球等等,这都是用户感兴趣的内容,都可以把它归为的视频的事情。这是一个交通的交通的马,沿着高速公路、大马路到处都是监控,它想要是不是有异常发生。看这个能不能自动检测出来这个车祸地方,多典型,剩下的想这样的场景一定是非常少,找到这样的事件之后,那些大量的没用的那些数据就不用保留,或者已经非常的把数据渠道。
再比如这种人群聚集的行为,它可能发生一些异常的事情,就要引起引起高度警惕。
还有像工厂里面操作,没有戴安全帽等等。有的带了,衣着不够合理,就像在参观的时候,不能穿裙子,不能穿高跟鞋,还有一些厂子里边有人玩手机,有些值班的人员睡觉等等,都是一些可以影响生产安全这种事情。
比如足球比赛里面的进球,很多足球迷很关心,这样的镜头整个过程怎么这样在没有人辅助的情况下,给它自动导出来。整个这个视频的镜头的回放,能看出来是谁进的球。这些内容让计算器去自动识别是不是有一定的难度。
比如说这个篮球里面发球跳投三分怎么来判断的三分球怎么来判断它是三分球,看屏幕还是看整个球场的这些标记线,球是不是进了,怎么去识别,是通过的去检测篮筐,去检测球门等等。通过上面的讲解,大家实际上要找到这些特定的事件,它的难度是很大的,正是因为难度大,现在才需要的人工智能和机器视觉的知识。现在深度学习的快速发展,已经会找到这些事件,提供了一些可能,但是通用的这种解法是没有,通常是去解决特定领域的视频事件的检测,比如说针对特定场景的监控视频,有大量的领域知识做辅助的。
交通里面,因为它马路它是规则的,对这个这个车应该在这个车道上,如果它到了对面的车道,那肯定是异常。
这些规则有了以后再进行,这节课内容结合体育视频的分析来看看怎么去找视频的事件,比如体育视频,以足球为例,它是分节的,上下两节,前半场,上半场和下半场,完整的体育比赛通常可以分成小节,篮足球,这样篮球也可以分解,足球也可以分解。这就为结构化提供依据,而事件,又通常发生在一个镜头,就是先验知识啊,为什么在一个镜头,说摄像机拍摄这个人,它可不可能拍进球的时候把摄像机调去拍观众。如果是这样的导播是可以下岗了。
而真正后面看到电视转播的时候是由导播把两个镜头拼在一起,它一般也是把那个进入那个时间放完之后,再去把另一个摄像机拍到了观众的反应,把他回放出来,有了这些知识以后,再去判断怎么来检测特定的事件。
大概经过了30年的发展,在体育视频里面主要分成三种类型检测,第一种是单模的。所谓的模态,比如说要么用音频,检测进球是否上升,是否有观众的欢呼声,是不是有激动的解说这都可以作为进球的线索,视觉特征上要找一个镜头的类型找球场的区域,找回放比如说要去检测独门其实最早做这件事都是通过视觉上早期判断搞计算机视觉的人在球场上找到这个球门去再把球门找到再把球门线找到再把球找到来判断球是不是进去了,到最后的检测率准确率几乎接近于零,因为球门线大部分已经被球员遮住了,球也被球员遮住了,在进球那一刻通常既检测不到球也检测不到球门线。
第三依赖于外面的文本比如说现场的文字的报告,这都是计算的限制,早期单纯视觉,后来发现单纯用视觉做不到,后来想能不能多模态一起做,现在有个很流行的词,叫做跨媒体智能。
不是进球,从检测球门检测球检测不出来,就通过观众的欢呼声等等这些,先找到可能是进球的这个镜头。
找到之后,再依赖于,比如说比分的变化,原来是1 : 1,现在变成了2 : 1,那说明一方进去了。在到底是谁进的球,识别不出来,能不能依靠解说员的语音,把语音识别出来,或者把这个现场报道的这个实时的文字直播里面的文字直播找出来,就卡在第25分钟建功立业,这已经是本场比赛攻入第三粒球,这句话就为找到谁进的球提供依据。
近十年深度学习的发展,学者开始尝试用深度学习来检测事件,这里主要用两个技术,一个是大数据的学习,有大量的样本。实验室在足球领域大概研究了20年,积累了大概200场视频比赛的数据还有一个叫提取的不同层次的特征,这个特征是深度学习的提特征的不同层次,这些层次面的若干参数怎么去设计,怎么去确定实际上是通过大数据这些样本去训练,实际是通过大数据样本训练得到的。