不够智能的人工智能,往往被调侃成“人工智障”,但不是所有人都清楚知道“智障”的原因。
1994年出生的巨丹,属于清楚知道原因的那部分人。
这个23岁的化工大学化学专业毕业生,从第一份实习工作开始,核心任务就是人工智能中“人工”的那部分,现在她是一个AI视觉数据集审核团队的leader。每当一个新成员加入,她总会引用她的leader曾经向她解释的话:人工智能人工智能,先有人工才有智能,有多少人工才会有多少智能。
“人工要不够,就会从智能变智障。”
超人90后
巨丹领导的是一个12人规模的团队,完全由来自北京高校的实习生组成,专业不限,年龄不限,被核心在意的只有实习的时间。
今年立夏前后,他们开始了每天为期8小时的工作,主要内容就是为审核已被初步标注的数据集。其中一部分人阅读速度快,被分到了审核“看图说话”的工作,另一部分人则较为细心,于是领到了复核“人体骨骼关键点”标注的任务。
数据标注公司给他们开发了专门的审核平台,这些大学在校生人手一个帐号,他们需要审核的工作对象,要么是那些被框定的人物,要么是被标出14个人体骨骼节点的图像。
这是个枯燥的工作,但不时发生一些小趣事。
在验收中,有一张图片的“描述”写道:一个男孩拿着话筒坐在椅子上。但审核验收的同学认为如此秀气的一个女孩儿,怎么就被描述成“男生”了?理所当然驳回让标注组返工。
然而来自标注组的电话随之到来,电话那头一脸懵逼地反问说:难道鹿晗不是男孩吗?图片中拿着话筒端坐的人物正是鹿晗呀。
这样的例子还有很多,有时也确实是标注组的“错误”。比如有一张图片里,他们把王俊凯标注成了李宇春……
其实参与标注、审核验收的都是94、95年出生的年轻人,他们正是鹿晗和王俊凯影响辐射范围里的核心群体,但机械、重复的审核工作,对于青春偶像的认知变得更为“客观”、“理性”和“AI化”。
这样的工作任务日复一日,持续进行了很久,甚至在上线日期紧迫的前几周,他们这12人小组还在周末加班加点,以保证首批数据集如期推出。
5个月辛苦工作后,巨丹等到了第一批反馈。
9月4日,AI Challenger(全球AI挑战赛)数据集正式上线。数小时后,有参赛选手完成了第一波数据集评价,参与这个视觉数据集打造并最终审核验收的产品经理梁睿收到反馈:“数据集很赞,竟然有针对图片的如此丰富的中文场景描述,前所未见”。
听到这样的评价,23岁的巨丹为之前的辛苦工作感到值得。她告诉量子位,一线负责数据集审核验收的工作并不轻松,但收到这样的反馈会让他们由衷开心。
作为数据集审核验收组组长,巨丹比同组其他人更明白数据集的意义和价值,其中大部分来自程序员和工程师的“言传身教”。
毕业于康奈尔大学、本职为创新工场AI工程院产品经理的梁睿告诉她,人工智能之所以被称为人工智能,就是先有人工再有智能,如果人工付出不够,就会变成人工智障。而人工的多少,最后反应为数据集质量的高低。
尽管巨丹并无法详述数据集具体如何让AI算法更智能,但她知道核心原理:“数据不好,就会影响牛逼技术的产生”。
巨丹从事这份工作已有1年多的时间,她表示现在看到的世界“与众不同”,比如在商场人群密集区,她满眼望去都是“人体骨骼节点”的图像,哪些属于上肢,哪些又属于下肢,哪些很清晰,哪些又被遮挡住了……她好几次这样看着就自己笑出声来,觉得自己拥有了一项“超人”的新技能。
之前有外界对这样的工作表达过悲观,认为数据标注审核完全就是新时代的富士康工作,但显然巨丹不这样认为,她觉得有站在前面研发算法和技术应用的人,也不能缺像她一样的背后服务者,即便看起来没有那么光鲜。
△ AI Challenger数据集验收中
巨丹的观点也得到倪笑海认同,后者是Face++的第4号员工,也是此次AI Challenger提供的三个视觉数据集之一图像中文描述数据集的标注团队负责人。
倪笑海正在打造起一支数据标注方面的正规军,他常对自己的团队说,他们所做的工作可以说是“数字工人”,也可以看做AI前线的认知者,在每一个领域的数据标注中,他们都会因此成为对该领域AI化结合认知最深刻的人。
数据标注的工作,确实不轻松,但也并非外界想象的缺乏前景。
耗资数百万
在Face++,倪笑海承担了这家全球闻名的人脸识别公司光鲜背后的那部分工作,他出身金融财务专业,被印奇、唐文斌和杨沐等人拉拢参与创业,“负责了技术之外所有的事情”。
现在,倪笑海最核心的工作,是为Face++每一个垂直领域的开拓铺垫基础、准备好数据粮草。在Face++,每一名博士都会配备3-4名数据标注人员当助手。而倪笑海领导的300人规模的团队,有些类似于京东壮大过程中的“京东物流”。
这一次给AI Challenger提供图像中文描述数据集标注服务,倪笑海动用了团队中的250人,其中200人标注,50人检查,从2月份正式开工启动,直至近期才基本结束,历时超过7个月时间。
但这还未计入“标准定义”时期的时间。倪笑海认为,这才是一个数据集标注最具挑战的部分。
原本这个数据集标注项目2016年10月就开始寻找团队接手,但在公开标注市场找寻一圈之后,并没有在“客服和运营转型”而来的标注公司中寻得满意的供应商。
于是创新工场投资公司Face++的标注团队进入主办方视野,希望借助经验丰富的Face++标注团队来实现借图像中文描述数据集”标注这一具有挑战的任务。
实际的标注工作并没有马上开始,AI Challenger组委会与Face++标注团队聚在一起,又花了一个月多时间进行任务的“重新定义”。如果不把这个标准工作变成一个可标准化执行的工作,那后期一定问题不少。例如标注的数据会偏,训练出来的模型准确性也会大打折扣。
他认为这个前期定义的需求,需要“产品经理”式的人物定义和梳理,把每一个“描述点”抠清楚。
这也是人类传授机器“智慧”、使其更加“智能”的过程。
比如在最初的设想概念中,图像中文描述数据集中标注“描述”的任务,原始概念是“看图说话,描述图片中的场景”。
但在实际情况出发,这是一个无法标准化完成的任务,因为每一个标注人员之间的主观重心不同、关注点不同,最后描述出的图片可能也会差别巨大。于是在正式启动标注前,组委会和标注团队会花很多时间去明确“场景描述”里的主体,哪些主体需要描述,哪些可以忽略,如何量化描述的正确度。
主干线索明确后,还需要通过多个主观描述让机器算法在学习中找到“客观”,于是在多组对比尝试后,最终选用了5人独立描述1张图片的方式,确保描述的多样性。这是一项对于标注团队来说前所未有的任务。
因为之前的数据集标注,更偏向于垂直领域的算法或自家技术的自检自查,但这次更多出于产业化去做事,试图覆盖学术界到产业界,从落地的角度去看问题,于是标注起来的普适性要求更明显——涉及场景更多,需要的图片数据更广泛,而按照关键词分类,场景数量超过了250个。
倪笑海还透露,在沟通“定义”的过程中,他可以感受到AI Challenger执行委员王咏刚的期望:希望能够倾力投入,从无到有打造一个中文世界的数据集和竞赛,让更多人才和AI交流愈加活跃起来。
量子位请倪笑海对比AI Challenger和ImageNet、MS COCO等数据集,他表示现在后二者在垂直领域上的高精尖地位还无法马上被撼动。此次的数据集建设,创新工场、搜狗、今日头条等主办方致力于广泛参与和影响力,但在将来持续的数据集建设中,超过ImageNet等经典数据集并非没有可能。
关于未来的规划,AI Challenger执行委员兼创新工场AI工程院副院长王咏刚说,主办方将会花几年时间,建成一个具有世界级影响力的科研数据集和竞赛平台。今年的“图像中文描述”、“人体骨骼关键点”、和“翻译数据集”在各自的领域,都形成了独特的优势。但这仅仅是一个开始。接下来,主办方将与最顶尖的学者一起,为最前沿的科学研究建设更多顶级数据集。
然而这并不意味着一切轻而易举,背后的付出很容易被忽略。
王咏刚告诉量子位,这次AI Challenger的数据标注,光成本就花费了数百万元,严格时间投入超过7个月,熟练标注员工投入400人。至少从数据集的角度将,这已是中文世界最具标志意义的AI开发大赛。
数据集
在AI狂飙突进的这几年中,最成功也最经典的数据集,非李飞飞和她的ImageNet莫属。
ImageNet诞生于2009年,在2017年CVPR宣布合并到kaggle,在这8年历程中,完全改变了AI研究的认知、方法,以及留下一个全新的数据集驱动的AI世界。短短7年内,ImageNet优胜者的识别率就从71.8%提升到97.3%,超过了人类,并证明了更庞大的数据可以带来更精确的结果。
很多人都将此视作当今这轮人工智能浪潮的催化剂。更为关键的是,“数据集重新定义了AI从业者对模型的思考方式。”
参与ImageNet挑战赛的企业遍布科技行业的每个角落。2010年的第一场竞赛优胜者都出任了百度、谷歌和华为的高管。马修·泽勒(Matthew Zeiler)利用2013年赢得ImageNet挑战赛时的程序创办了Clarifai公司,目前获得了4000万美元风险投资。
2009年以来,数十个新开发的人工智能研究数据集已经引入了计算机视觉、神经语言处理和语音识别等子领域。如何打造一个ImageNet一样的经典数据集,成为后来者最核心讨论的关键。
在中科院自动化所研究员王亮博士看来,打造ImageNet一样的经典数据集,至少要有三方面的核心投入。
一方面是数据规模,至少是100万级以上的规模,这样才更有说服力;
二是多样性,能够有不同场景下的覆盖,比如人脸识别中,光照、表情、各种角度的多样性是否丰富,都会影响最后结果的准确性和泛化;
三则是数据最好接近真实应用,这样不仅对于学术研究有正向作用,对于技术和产品研发落地,也能不断补足算法开发。
这位国家模式识别重点实验室副主任坦承,做到以上几方面并不容易。
在以往国家模式识别重点实验室的研究中,他们通常的做法是先找可共享的数据集,再不行就自建数据集,但自建则意味着精力和成本投入,即便国家项目中有专门为数据集创建留出的预算,但承担上限也极为清晰,他们尚未有超过50万元规模的投入,这其中还不包括采集相关的费用,真是一件耗时费力的事情。
此外,更便利的方式是和企业合作,企业中的数据集偏向应用,规模和场景也符合,但涉及企业版权、保密等原因,企业开放数据需要机会和运气。
这是王亮博士对此次AI Challenger饱含期待的原因之一。也是这个AI挑战赛从无到有背后最大的挑战。
发起这样的比赛,不仅要投入时间、金钱、人力等各种资源,还要找到并说服合作企业开放数据,而且从结果看,最后搜狗和今日头条开放的数据,也在中国互联网史上堪称前所未见。
在AI challenger宣布推出后的第二天,赛事发起人李开复写下了一篇题为《从1983到2017,我的幸运与遗憾》的文章,详细回顾了1983年至1988年李开复的博士研究往事。
当时在卡内基-梅隆大学攻读计算机博士学位的他,从无到有用统计学的方法,通过建立大型的数据库提升语音识别准确率,并打破了导师坚持的专家系统的研究方式。这让26岁的李开复一战成名。不仅是当年《商业周刊》评选的“1988最重要科学发明”,也让李开复破格留校,成为卡耐基-梅隆大学的助理教授。
其间幸运的是,李开复的博士导师瑞迪(Raj Reddy)给予了这个当时“离经叛道”的学生莫大的支持和鼓励,这位图灵奖得主、CMU终身教授,不仅在精神上表现出“和而不同”的风度,而且在数据库打造和计算资源支持方面,提供了共计30万美元的研发经费支持。
“这在30多年前,我还是一个AI科研人员的时代,能接触到真实世界里如此海量的数据,是个遥不可及的梦想”,谈到这次开放出来的数据集李开复说:“我当年受惠于瑞迪教授的帮助和指导,今天也非常希望能给更多和我一样的年轻人,创造研究机会和条件”。
— 完 —