1.7 视频的深度分段网络
下面介绍另外一个工作,是我们和 CUHK、ETH 联合开展的,这个工作考 虑视频的分段特性,我们知道视频可以分 成很多段,每一段有不同的内容。我们 开发了一个深度模型,对不同的段分别 提取深度特征,然后利用一个 Segment Consensus 模块对这些特征进行融合。在 融合的时候,我们发现并不是所有这些 段对识别的贡献都是一样的,有些区域 贡献比较大,有些区域不重要。因此在 融合的时候,我们设计了一个加权机制, 根据各段重要性进行加强,这个加权系 数是学习得到的,可以与识别网络联合 做 End-to-End 的联合优化。
基于这个方法,我们参见了 ActivityNet 2016 竞赛。ActivityNet 包含 200 多个类别, 600 多个小时的视频,内容比较复杂,数据 量比较大。另外,这个数据库是 untrimmed 的,就是说视频里面可能包含和类别不相 关的时间段。我们的方法取得了 93% 的识 别率,在所有方法中排名第一。
我们看到伴随着深度模型在视频分析 识别中的广泛应用,在行为分类任务上 取得了重要进展,在多个公开数据库的 识别率都有大幅的提升。但是另一方面, 由于视频的复杂性,很多问题离最终解 决还有很大距离。这就要求我们开展研 究工作,在方法上有进一步的进展。
(本文根据乔宇研究员在中国人工智能学会首 期“人工智能前沿讲习班”的现场报告整理)
中国科学院深圳先进技术研究院研究员,集成所副所长。担任广东省“机器视觉与虚拟现实”重点实验室常 务副主任 , 深圳市“机器视觉与模式识别”重点实验室副主任。2011 年获得中国科学院“百人计划”择优支持, 广东省科技创新领军人才,深圳鹏程学者长期特聘教授。从事计算机视觉、深度学习和模式识别的研究。已 在包括 PAMI、T-IP、T-SP、IJCV、CVPR、ICCV、ECCV、AAAI 等会议和期刊上发表学术论文 150 余篇 , 带领 团队多次在 ChaLearn、LSun、THUMOUS、ACTIVITYNet 等国际评测中取得第一,获 ImageNet 2016 场景分类 任务第二名。