1.3 计算机视觉领域利用深度学习可能带来的未来研究方向
第一个,深度图像分析。目前基于深度 学习的图像算法在实验数据库上效果还是 不错的,但是远远不能够满足实际大规模 应用需求,需要进一步的提升算法性能从 而能够转化相应的实际应用。比如这个基 于图片的应用,可以估计性别和年龄,但 是其实经常会犯错,因此需要进一步提升 深度图像分析的性能。
第二个,深度视频分析。视频分析牵扯 到大量的数据和计算量,所以做起来更加 麻烦。当前深度视频分析还处于起步的阶 段,然而视频应用非常广泛,比如人机交互、 智能监控等,所以加强深度视频分析是个 重要的方向。
第三个,大规模深度学习。随着时间的 推移,数据量将呈指数级增长。为了处理 更大规模的数据,需要进行多 GPU 并行及 分布式计算。开发大规模深度学习算法是 相当必要的。
第四个,无监督(半监督)学习。这 个方向是很明显的,因为实际应用中监 督信息可能常常是缺失的,在大数据时 代背景下要想标注所有的数据代价也是 昂贵的。为了充分应用无标记的数据, 进行无监督(或半监督)学习是非常重 要的。近来的预测学习本质上与无监督 学习是对应的。
第五个,多模态学习。多模态数据无 处不在,尤其在互联网时代,网络上的图 像、文本、语音等同时存在。多模态数据 具有语义一致性、信息互补性的特点,互 补性可做多模态数据的融合,一致性可做 跨模态关联(如跨模态检索)。视觉信息 的有效理解离不开周边文本等其他模态数 据,因此多模态学习是非常有意义的研究 方向。
第六个,类脑智能研究。神经网络本 身是模拟大脑认知机理提出的网络结构。 当前部分生物机制已经被应用到深度学习 中,比如注意机制、神经元跨层连接机制等。 我们有幸申请到一个基金委重点项目,探 索深度认知神经网络模型与方法,就是希 望在神经网络模型上能够嵌入一些脑认知 功能,比如注意机制、记忆机制、反馈机制、 推理机制等,以期开发更 Powerful 的神经 网络新模型。在全球推动脑计划的大背景 下,研究类脑智能显得尤为迫切和必要。
(本文根据王亮研究员在中国人工智能学会首 期“人工智能前沿讲习班”的现场报告整理)
博士,研究员,博士生导师,IEEE 高级会员,国际模式识别协会会士(IAPR Fellow),模式识别国家重点 实验室副主任,计算机学会计算机视觉专委会秘书长,图像视频大数据产业技术创新战略联盟秘书长,电子 学会青年科学家俱乐部副主席,中国图象图形学学会视觉大数据专委主任,中国科学院脑科学与智能技术卓 越中心骨干。中科院百人计划入选者(终期优秀),国家杰出青年科学基金获得者,国家青年科技奖获得者。 2004 年获中科院自动化所工学博士学位。2004-2010 年分别在英国帝国理工学院、澳大利亚莫纳什大学、 墨尔本大学及英国巴斯大学工作。主要研究领域是模式识别、计算机视觉、大数据分析等。目前 Google Scholar 引用 9 200 余次,近 5 年 SCI 他引 1200 次。