AI火热,但并不是所有人都清楚“数据集”的意义。
首届“AI Challenger·全球AI挑战赛”在9月4日正式开始后,既收获了参赛选手的第一手反馈,也引来不少吃瓜群众围观。
参赛选手评价,“人体骨骼关键点”、“图像中文描述”和“英中机器翻译”3大数据集令人意外又惊喜,他们没想到首届比赛,主办方就在数据集上花费了大心思,质量大大超出预期。
然而对于好奇者来说,他们尚未清楚数据集背后的意义,也不知道一个经典数据集的评价标准,需要从哪些维度展开。
于是本着科普的初衷,我们邀请到本次AI Challenger全球AI挑战赛的评委、中科院自动化所模式识别国家重点实验室副主任王亮博士,解答最常见的一些数据集相关的问题,王亮博士也向我们解释了图像领域经典数据集之所以经典的原因。
为方便阅读,我们以第一人称的叙述方式,将王亮博士的问答进行了不改变原意的改写。
△ 王亮博士
大家好。
我是中科院自动化所模式识别国家重点实验室的研究员王亮,主要的研究领域是模式识别,具体的研究方向是视觉模式分析,主要对图像、视频等视觉数据进行处理。
在图像处理方面,主要集中于目标检测、识别、分割与检索等。在视频处理方面则更多关注智能视频分析,比如视频中个体检测、跟踪、身份识别、行为识别、事件分析等。
这或许是我受邀成为AI Challenger全球AI挑战赛评委的核心原因,希望我在图像识别相关评选中给于指导、发挥作用。
而从我的角度来讲,确实也想为国内人工智能的推动做些事情。
现在的国内人工智能正处于如火如荼的发展爆发期,从上到下都很重视,比如今年7月份国家还发布了《新一代人工智能发展规划》,所以举办这个AI挑战大赛是一个正当其时且非常有意义的事情。
其次,这次比赛与计算机视觉研究密切相关。我本人一直在从事计算机视觉领域研究、组织与推广工作,比如我是中国计算机学会-计算机视觉专委会(CCF-CV)的秘书长,也是中国图象图形学学会视觉大数据专委会主任,因此有责任、有义务、也非常愿意为推动国内视觉领域的发展做一些力所能及的事情。
不过,办这样的大赛并不简单,最具挑战的当属“数据集”。
数据集价值
很多人可能已经知道当前人工智能发展的三大要素:数据、计算力和算法,知道数据集、计算力和算法是相辅相成、相互提升的,三者缺一不可,但可能不太清楚数据集具体发挥的作用。
直白来说,数据是基础,任何研究都离不开数据,巧妇难为无米炊。除了数据之外,计算能力也非常关键。深度学习算法之所以可以兴起,一方面是大规模数据的出现,另一方面得益于高性能计算,可以让庞大的模型能够被很好的拟合。
举个例子,ImageNet之前有Pascal VOC竞赛,刚开始只有20个目标类别,后来ImageNet扩充到1000类目标,数据量也达到百万级。数据规模大了,传统算法准确度就大幅下降。但是大规模的数据集有助于研究者开发更高级的模型来不断提升算法的精度。比如2012年Hinton将CNN模型结合GPU加速应用到ImageNet数据上,其准确率相对于当时最好的传统算法提升了11%,进而到最近年的95%以上。
这种算法结果准确性的提升,正是数据集带来的。
在学界,数据集的意义更加直接:没有数据集,就无法展开相应的研究工作。
所以在确定研究课题后,最为首要的任务就是获得相应的数据集,通常有这样几种方案:
1)确定特定研究方向后,在网络上查找是否有公开、共享的数据集;
2)如果该研究方向当前没有公开数据集或者公开数据集不适合自己的具体研究问题,那就可能需要亲自去创建新的数据集。比如我博士期间做步态识别研究方向,当时国际上为数不多的公开数据集规模都很小(10人左右)、且行走视频基本都是侧面室内拍摄的,所以当时我们建了一个规模达到20个人、包括3种不同视角的户外场景数据集;
3)参加公开的技术比赛(比如AI挑战赛),这样的比赛通常会提供合适的数据集;
4)与企业进行合作,企业方一般可提供所获取的与实际应用更相关的数据集。
事实上,不同研究方向基本上都有与之相对应的数据集,比如,不仅有文字处理和图像分类任务相关的数据集,也有用于行为识别和目标检测的数据集等。
于是也就产生了不少经典数据集。
经典数据集及评价标准
比如ImageNet,它是专门用于图像分类和目标检测的大规模数据集,基于此数据集的LSVRC竞赛开展了8年,产生了广泛的影响。
除了ImageNet,还有MS COCO数据集,它包含更多的标注信息,除了图像分类和目标检测外,它还可以用来做图像检索、语义分割、图像描述等多种任务。
今年随着ImageNet比赛的终结,李飞飞教授又提出了VisualGenome数据集,它的规模更大、标注信息更多,并向一些新的任务上进行了拓展,包括视觉关系检测等。由此可见,数据集也是在研究需求的推动下不断向前完善和发展的。
对于ImageNet和MS COCO,也有不少人做出过对比评价,我也可以简单谈谈我的观点:
毫无疑问,ImageNet数据集的出现极大推动了目标识别、检测方面的研究进展。但在MS COCO数据集上,不仅可以做识别和检测,还可以做一些语义分割和图像描述等相关的研究任务。
这几年CV领域发展很快,之前大部分研究精力在做“感知”,现在开始更多地尝试“理解”。我们小组目前研究较多的多模态学习、跨模态检索,包括最近比较火的“看图说话”任务(图像描述),都是可以基于MS COCO数据集去研究。可以说,数据集的类型很大程度上还是与研究目的息息相关的。
当然也会有同学问,什么样的数据集才能称得上经典数据集?背后的评价维度有哪些?我认为有三条标准。
第一,规模要大,大规模数据集上实验出来的结果,更有说服力,比如规模至少要在100万级以上;
第二,多样性丰富一些,比如对于人脸识别任务,要求光照、表情、视角等变化因子具有多样性;
第三,更接近实用需求,而不是完全实验室场景下采集的数据集。
可能前两点原因比较好理解,但数据集采集为什么还要分实用需求和实验室场景呢?
一般来说,如果数据集分布越接近真实应用场景,就越有可能对研究工作有更正向的推动作用。
比如最早期的个体行为识别数据集,通常是简单场景下安排一些人员模拟表演各种动作,这样采集的行为视频自然跟现实生活中的行为不太一样,这样的约束实验场景下的数据集不可能真正用于算法的实际性能评估。
因此从实际应用中获取数据集对于算法开发和评估会更有意义,比如说从企业获得数据。
但从企业获得数据并不容易,企业主动开放共享的案例更是少之又少。
因为这些企业数据中,可能涉及到数据版权、商业保密、用户隐私等几个重要因素。另外,重要的政府机构相关数据也很难获取,比如跟公安相关机构合作,一般也很难获取到这些部门所拥有的大量的实际监控数据,这可能也是出于国家安全、隐私保护等方面的原因。
所以此次AI Challenger全球AI挑战赛之所以会在数据集方面受到关注,我觉得跟企业数据共享密不可分。
当然,回到我们评价数据集的三个标准,其他两项也符合“经典数据集”的要素。数据规模上超过100万量级已成现实。多样性方面也有潜力。
比如目前这次AI挑战赛,在图像描述、骨骼关键点等任务上提供的实际场景数据集规模上也许是国际上比较大的。如果接下来能不断补充数据,在规模上、多样性上进一步完善,做成系列性的比赛,就有可能成为经典的数据集。
所以我也衷心希望能有更多优秀选手参赛,通过此次精心打造的数据集打磨出好算法。
参赛建议
作为大赛评委,我觉得首先自然关注的就是方法的性能优劣,比如以准确率为指标;当然对于视觉算法而言,通常也比较关注实时性、鲁棒性等,因此也可以考虑方法的综合性能。
不过,在性能相近情况下,评委可以关注所使用方法的创新性。独创性的模型和方法会更值得关注和鼓励。
最后,对于参赛学生,我也有三点建议:
1)现在深度学习是推动AI进步的重要技术之一,可能这次比赛很多选手会选择使用深度学习技术。如果有学生还不太了解深度学习方面的技术,建议他们学习相关课程(视频),比如斯坦福的深度学习公开课程等。
2)针对这次比赛的任务-关键点检测,推荐大家去看下CMU的openpose工作,这个工作做得很好,在CVPR2017上的实际演示效果也很不错。
3)针对这次比赛的任务-图像描述,现有的图像描述工作使用的更多是英文描述,而这次大赛加入了中文描述,更符合中文语言的使用习惯。该数据内容更加丰富,包括形容词、成语等,相应的挑战也会更大一些。为了了解图像描述工作,建议去了解一下谷歌最近期的研究工作。
祝每一位参赛选手都能收获满意的成绩,也祝愿更多对AI感兴趣的同学在“AI Challenger·全球AI挑战赛”中提升自己。
专家简介
王亮,研究员,博士生导师,电子电气工程师学会(IEEE)高级会员,国际模式识别学会(IAPR)会士,国家杰出青年科学基金获得者,国家青年科技奖获得者。1997 年和2000 年分别获得安徽大学工学学士和硕士学位,2004年获中国科学院自动化研究所工学博士学位。2004 - 2010 年分别在英国帝国理工大学,澳大利亚莫纳什大学,澳大利亚墨尔本大学及英国巴斯大学工作,历任助理研究员,研究员和讲师。2010 年入选中国科学院“百人计划”,现为中科院自动化所模式识别国家重点实验室副主任,研究员。
— 完 —