中科院自动化所王亮:由AI Challenger漫谈数据集的重要性

简介:
本文来自AI新媒体量子位(QbitAI)

AI火热,但并不是所有人都清楚“数据集”的意义。

首届“AI Challenger·全球AI挑战赛”在9月4日正式开始后,既收获了参赛选手的第一手反馈,也引来不少吃瓜群众围观。

参赛选手评价,“人体骨骼关键点”、“图像中文描述”和“英中机器翻译”3大数据集令人意外又惊喜,他们没想到首届比赛,主办方就在数据集上花费了大心思,质量大大超出预期。

然而对于好奇者来说,他们尚未清楚数据集背后的意义,也不知道一个经典数据集的评价标准,需要从哪些维度展开。

于是本着科普的初衷,我们邀请到本次AI Challenger全球AI挑战赛的评委、中科院自动化所模式识别国家重点实验室副主任王亮博士,解答最常见的一些数据集相关的问题,王亮博士也向我们解释了图像领域经典数据集之所以经典的原因。

为方便阅读,我们以第一人称的叙述方式,将王亮博士的问答进行了不改变原意的改写。

d7a4da6d63301f5958bf59bbdd4bf83e6eb11918

 王亮博士

大家好。

我是中科院自动化所模式识别国家重点实验室的研究员王亮,主要的研究领域是模式识别,具体的研究方向是视觉模式分析,主要对图像、视频等视觉数据进行处理。

在图像处理方面,主要集中于目标检测、识别、分割与检索等。在视频处理方面则更多关注智能视频分析,比如视频中个体检测、跟踪、身份识别、行为识别、事件分析等。

这或许是我受邀成为AI Challenger全球AI挑战赛评委的核心原因,希望我在图像识别相关评选中给于指导、发挥作用。

而从我的角度来讲,确实也想为国内人工智能的推动做些事情。

现在的国内人工智能正处于如火如荼的发展爆发期,从上到下都很重视,比如今年7月份国家还发布了《新一代人工智能发展规划》,所以举办这个AI挑战大赛是一个正当其时且非常有意义的事情。

其次,这次比赛与计算机视觉研究密切相关。我本人一直在从事计算机视觉领域研究、组织与推广工作,比如我是中国计算机学会-计算机视觉专委会(CCF-CV)的秘书长,也是中国图象图形学学会视觉大数据专委会主任,因此有责任、有义务、也非常愿意为推动国内视觉领域的发展做一些力所能及的事情。

不过,办这样的大赛并不简单,最具挑战的当属“数据集”。

数据集价值

很多人可能已经知道当前人工智能发展的三大要素:数据、计算力和算法,知道数据集、计算力和算法是相辅相成、相互提升的,三者缺一不可,但可能不太清楚数据集具体发挥的作用。

直白来说,数据是基础,任何研究都离不开数据,巧妇难为无米炊。除了数据之外,计算能力也非常关键。深度学习算法之所以可以兴起,一方面是大规模数据的出现,另一方面得益于高性能计算,可以让庞大的模型能够被很好的拟合。

举个例子,ImageNet之前有Pascal VOC竞赛,刚开始只有20个目标类别,后来ImageNet扩充到1000类目标,数据量也达到百万级。数据规模大了,传统算法准确度就大幅下降。但是大规模的数据集有助于研究者开发更高级的模型来不断提升算法的精度。比如2012年Hinton将CNN模型结合GPU加速应用到ImageNet数据上,其准确率相对于当时最好的传统算法提升了11%,进而到最近年的95%以上。

这种算法结果准确性的提升,正是数据集带来的。

在学界,数据集的意义更加直接:没有数据集,就无法展开相应的研究工作。

所以在确定研究课题后,最为首要的任务就是获得相应的数据集,通常有这样几种方案:

1)确定特定研究方向后,在网络上查找是否有公开、共享的数据集;

2)如果该研究方向当前没有公开数据集或者公开数据集不适合自己的具体研究问题,那就可能需要亲自去创建新的数据集。比如我博士期间做步态识别研究方向,当时国际上为数不多的公开数据集规模都很小(10人左右)、且行走视频基本都是侧面室内拍摄的,所以当时我们建了一个规模达到20个人、包括3种不同视角的户外场景数据集;

3)参加公开的技术比赛(比如AI挑战赛),这样的比赛通常会提供合适的数据集;

4)与企业进行合作,企业方一般可提供所获取的与实际应用更相关的数据集。

事实上,不同研究方向基本上都有与之相对应的数据集,比如,不仅有文字处理和图像分类任务相关的数据集,也有用于行为识别和目标检测的数据集等。

于是也就产生了不少经典数据集。

经典数据集及评价标准

比如ImageNet,它是专门用于图像分类和目标检测的大规模数据集,基于此数据集的LSVRC竞赛开展了8年,产生了广泛的影响。

除了ImageNet,还有MS COCO数据集,它包含更多的标注信息,除了图像分类和目标检测外,它还可以用来做图像检索、语义分割、图像描述等多种任务。

今年随着ImageNet比赛的终结,李飞飞教授又提出了VisualGenome数据集,它的规模更大、标注信息更多,并向一些新的任务上进行了拓展,包括视觉关系检测等。由此可见,数据集也是在研究需求的推动下不断向前完善和发展的。

对于ImageNet和MS COCO,也有不少人做出过对比评价,我也可以简单谈谈我的观点:

毫无疑问,ImageNet数据集的出现极大推动了目标识别、检测方面的研究进展。但在MS COCO数据集上,不仅可以做识别和检测,还可以做一些语义分割和图像描述等相关的研究任务。

这几年CV领域发展很快,之前大部分研究精力在做“感知”,现在开始更多地尝试“理解”。我们小组目前研究较多的多模态学习、跨模态检索,包括最近比较火的“看图说话”任务(图像描述),都是可以基于MS COCO数据集去研究。可以说,数据集的类型很大程度上还是与研究目的息息相关的。

当然也会有同学问,什么样的数据集才能称得上经典数据集?背后的评价维度有哪些?我认为有三条标准。

第一,规模要大,大规模数据集上实验出来的结果,更有说服力,比如规模至少要在100万级以上;

第二,多样性丰富一些,比如对于人脸识别任务,要求光照、表情、视角等变化因子具有多样性;

第三,更接近实用需求,而不是完全实验室场景下采集的数据集。

可能前两点原因比较好理解,但数据集采集为什么还要分实用需求和实验室场景呢?

一般来说,如果数据集分布越接近真实应用场景,就越有可能对研究工作有更正向的推动作用。

比如最早期的个体行为识别数据集,通常是简单场景下安排一些人员模拟表演各种动作,这样采集的行为视频自然跟现实生活中的行为不太一样,这样的约束实验场景下的数据集不可能真正用于算法的实际性能评估。

因此从实际应用中获取数据集对于算法开发和评估会更有意义,比如说从企业获得数据。

但从企业获得数据并不容易,企业主动开放共享的案例更是少之又少。

因为这些企业数据中,可能涉及到数据版权、商业保密、用户隐私等几个重要因素。另外,重要的政府机构相关数据也很难获取,比如跟公安相关机构合作,一般也很难获取到这些部门所拥有的大量的实际监控数据,这可能也是出于国家安全、隐私保护等方面的原因。

所以此次AI Challenger全球AI挑战赛之所以会在数据集方面受到关注,我觉得跟企业数据共享密不可分。

当然,回到我们评价数据集的三个标准,其他两项也符合“经典数据集”的要素。数据规模上超过100万量级已成现实。多样性方面也有潜力。

比如目前这次AI挑战赛,在图像描述、骨骼关键点等任务上提供的实际场景数据集规模上也许是国际上比较大的。如果接下来能不断补充数据,在规模上、多样性上进一步完善,做成系列性的比赛,就有可能成为经典的数据集。

所以我也衷心希望能有更多优秀选手参赛,通过此次精心打造的数据集打磨出好算法。

参赛建议

作为大赛评委,我觉得首先自然关注的就是方法的性能优劣,比如以准确率为指标;当然对于视觉算法而言,通常也比较关注实时性、鲁棒性等,因此也可以考虑方法的综合性能。

不过,在性能相近情况下,评委可以关注所使用方法的创新性。独创性的模型和方法会更值得关注和鼓励。

最后,对于参赛学生,我也有三点建议:

1)现在深度学习是推动AI进步的重要技术之一,可能这次比赛很多选手会选择使用深度学习技术。如果有学生还不太了解深度学习方面的技术,建议他们学习相关课程(视频),比如斯坦福的深度学习公开课程等。

2)针对这次比赛的任务-关键点检测,推荐大家去看下CMU的openpose工作,这个工作做得很好,在CVPR2017上的实际演示效果也很不错。

3)针对这次比赛的任务-图像描述,现有的图像描述工作使用的更多是英文描述,而这次大赛加入了中文描述,更符合中文语言的使用习惯。该数据内容更加丰富,包括形容词、成语等,相应的挑战也会更大一些。为了了解图像描述工作,建议去了解一下谷歌最近期的研究工作。

祝每一位参赛选手都能收获满意的成绩,也祝愿更多对AI感兴趣的同学在“AI Challenger·全球AI挑战赛”中提升自己。

专家简介

王亮,研究员,博士生导师,电子电气工程师学会(IEEE)高级会员,国际模式识别学会(IAPR)会士,国家杰出青年科学基金获得者,国家青年科技奖获得者。1997 年和2000 年分别获得安徽大学工学学士和硕士学位,2004年获中国科学院自动化研究所工学博士学位。2004 - 2010 年分别在英国帝国理工大学,澳大利亚莫纳什大学,澳大利亚墨尔本大学及英国巴斯大学工作,历任助理研究员,研究员和讲师。2010 年入选中国科学院“百人计划”,现为中科院自动化所模式识别国家重点实验室副主任,研究员。

本文作者:李根
原文发布时间: 2017-09-20 
相关文章
|
4天前
|
存储 人工智能 安全
从梦想到现实:十年见证AI自动化漏洞修复的演变
2014年,我怀揣着利用科技创造更安全数字世界的梦想,提出了通过云平台自动化修复第三方网站漏洞的构想。十年后的2024年,随着AI技术的崛起,这一梦想已成为现实。如今,用户只需简单注册并安装插件,AI系统就能自动检测、修复漏洞,整个过程高效、智能。AI不仅提升了系统的可靠性和效率,还具备自我学习能力,使安全防护更加主动。未来,我将继续用AI探索更多可能,推动技术的发展,不断完善这个充满智慧与安全的数字世界。
18 3
从梦想到现实:十年见证AI自动化漏洞修复的演变
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
自动化测试的新篇章:利用AI提升软件质量
【10月更文挑战第35天】在软件开发的海洋中,自动化测试犹如一艘救生艇,它帮助团队确保产品质量,同时减少人为错误。本文将探索如何通过集成人工智能(AI)技术,使自动化测试更加智能化,从而提升软件测试的效率和准确性。我们将从AI在测试用例生成、测试执行和结果分析中的应用出发,深入讨论AI如何重塑软件测试领域,并配以实际代码示例来说明这些概念。
20 3
|
2天前
|
人工智能 自然语言处理 IDE
通义灵码让AI帮你实现自动化编程
通义灵码是由阿里云与通义实验室联合开发的智能编码辅助工具,具备行级/函数级实时续写、自然语言生成代码、单元测试生成、代码优化、注释生成、代码解释、研发智能问答及异常报错排查等功能。该工具支持200多种编程语言,兼容主流IDE,如Visual Studio Code、Visual Studio和JetBrains IDEs。通义灵码在Gartner发布的AI代码助手魔力象限中表现出色,成为唯一进入挑战者象限的中国科技公司。目前,通义灵码下载量已超过470万,每日辅助生成代码超3000万次,被开发者广泛采用。
|
21天前
|
人工智能 安全 决策智能
OpenAI推出实验性“Swarm”框架,引发关于AI驱动自动化的争论
OpenAI推出实验性“Swarm”框架,引发关于AI驱动自动化的争论
|
14天前
|
机器学习/深度学习 数据采集 人工智能
探索AI驱动的自动化测试新纪元###
本文旨在探讨人工智能如何革新软件测试领域,通过AI技术提升测试效率、精准度和覆盖范围。在智能算法的支持下,自动化测试不再局限于简单的脚本回放,而是能够模拟复杂场景、预测潜在缺陷,并实现自我学习与优化。我们正步入一个测试更加主动、灵活且高效的新时代,本文将深入剖析这一变革的核心驱动力及其对未来软件开发的影响。 ###
|
11天前
|
机器学习/深度学习 人工智能 自然语言处理
探索软件测试的未来:AI与自动化的融合
【10月更文挑战第25天】在本文中,我们将深入探讨软件测试领域正在经历的革命性变化。随着人工智能(AI)和自动化技术的不断进步,传统的测试方法正逐步被更高效、更智能的解决方案所取代。文章将展示如何通过AI增强自动化测试框架,实现更高效的缺陷检测和问题解决。我们将从基础出发,逐步揭示AI在测试用例生成、测试执行和结果分析中的应用,以及这些技术如何帮助团队提高生产力并缩短产品上市时间。
|
1月前
|
机器学习/深度学习 人工智能 安全
自动化测试的未来:AI与机器学习的结合
随着技术的发展,软件测试领域正迎来一场革命。自动化测试,一度被认为是提高效率和准确性的黄金标准,如今正在被人工智能(AI)和机器学习(ML)的浪潮所推动。本文将探讨AI和ML如何改变自动化测试的面貌,提供代码示例,并展望这一趋势如何塑造软件测试的未来。我们将从基础概念出发,逐步深入到实际应用,揭示这一技术融合如何为测试工程师带来新的挑战和机遇。
57 3
|
1月前
|
机器学习/深度学习 人工智能 边缘计算
AI技术趋势:从自动化到智能化的演变
AI技术趋势:从自动化到智能化的演变
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
自动化测试的未来:AI与机器学习的融合
【9月更文挑战第29天】在软件测试领域,自动化测试一直是提高测试效率和质量的关键。随着人工智能(AI)和机器学习(ML)技术的飞速发展,它们正逐步渗透到自动化测试中,预示着一场测试革命的来临。本文将探讨AI和ML如何重塑自动化测试的未来,通过具体案例展示这些技术如何优化测试流程,提高测试覆盖率和准确性,以及它们对测试工程师角色的影响。
85 7
|
21天前
|
机器学习/深度学习 人工智能 算法
探索软件测试的未来:AI与自动化的融合
【10月更文挑战第15天】在数字化时代的浪潮中,软件测试作为保障软件质量的重要手段,正经历着前所未有的变革。随着人工智能(AI)技术的快速发展和自动化测试工具的不断完善,传统的测试方法正在被重新塑造。本文将深入探讨AI如何赋能软件测试,提升测试效率和准确性,以及自动化测试的未来趋势。我们将通过实际案例,揭示AI与自动化测试相结合的强大潜力,为读者描绘一幅软件测试领域的未来蓝图。
下一篇
无影云桌面