一个耗资数百万的AI数据集,和它背后的90后超人们

简介:
本文来自AI新媒体量子位(QbitAI)


不够智能的人工智能,往往被调侃成“人工智障”,但不是所有人都清楚知道“智障”的原因。

1994年出生的巨丹,属于清楚知道原因的那部分人。

这个23岁的化工大学化学专业毕业生,从第一份实习工作开始,核心任务就是人工智能中“人工”的那部分,现在她是一个AI视觉数据集审核团队的leader。每当一个新成员加入,她总会引用她的leader曾经向她解释的话:人工智能人工智能,先有人工才有智能,有多少人工才会有多少智能。

“人工要不够,就会从智能变智障。”

超人90后

巨丹领导的是一个12人规模的团队,完全由来自北京高校的实习生组成,专业不限,年龄不限,被核心在意的只有实习的时间。

今年立夏前后,他们开始了每天为期8小时的工作,主要内容就是为审核已被初步标注的数据集。其中一部分人阅读速度快,被分到了审核“看图说话”的工作,另一部分人则较为细心,于是领到了复核“人体骨骼关键点”标注的任务。

数据标注公司给他们开发了专门的审核平台,这些大学在校生人手一个帐号,他们需要审核的工作对象,要么是那些被框定的人物,要么是被标出14个人体骨骼节点的图像。

这是个枯燥的工作,但不时发生一些小趣事。

在验收中,有一张图片的“描述”写道:一个男孩拿着话筒坐在椅子上。但审核验收的同学认为如此秀气的一个女孩儿,怎么就被描述成“男生”了?理所当然驳回让标注组返工。

然而来自标注组的电话随之到来,电话那头一脸懵逼地反问说:难道鹿晗不是男孩吗?图片中拿着话筒端坐的人物正是鹿晗呀。

这样的例子还有很多,有时也确实是标注组的“错误”。比如有一张图片里,他们把王俊凯标注成了李宇春……

其实参与标注、审核验收的都是94、95年出生的年轻人,他们正是鹿晗和王俊凯影响辐射范围里的核心群体,但机械、重复的审核工作,对于青春偶像的认知变得更为“客观”、“理性”和“AI化”。

这样的工作任务日复一日,持续进行了很久,甚至在上线日期紧迫的前几周,他们这12人小组还在周末加班加点,以保证首批数据集如期推出。

5个月辛苦工作后,巨丹等到了第一批反馈。

9月4日,AI Challenger(全球AI挑战赛)数据集正式上线。数小时后,有参赛选手完成了第一波数据集评价,参与这个视觉数据集打造并最终审核验收的产品经理梁睿收到反馈:“数据集很赞,竟然有针对图片的如此丰富的中文场景描述,前所未见”。

听到这样的评价,23岁的巨丹为之前的辛苦工作感到值得。她告诉量子位,一线负责数据集审核验收的工作并不轻松,但收到这样的反馈会让他们由衷开心。

作为数据集审核验收组组长,巨丹比同组其他人更明白数据集的意义和价值,其中大部分来自程序员和工程师的“言传身教”。

毕业于康奈尔大学、本职为创新工场AI工程院产品经理的梁睿告诉她,人工智能之所以被称为人工智能,就是先有人工再有智能,如果人工付出不够,就会变成人工智障。而人工的多少,最后反应为数据集质量的高低。

尽管巨丹并无法详述数据集具体如何让AI算法更智能,但她知道核心原理:“数据不好,就会影响牛逼技术的产生”。

巨丹从事这份工作已有1年多的时间,她表示现在看到的世界“与众不同”,比如在商场人群密集区,她满眼望去都是“人体骨骼节点”的图像,哪些属于上肢,哪些又属于下肢,哪些很清晰,哪些又被遮挡住了……她好几次这样看着就自己笑出声来,觉得自己拥有了一项“超人”的新技能。

之前有外界对这样的工作表达过悲观,认为数据标注审核完全就是新时代的富士康工作,但显然巨丹不这样认为,她觉得有站在前面研发算法和技术应用的人,也不能缺像她一样的背后服务者,即便看起来没有那么光鲜。

 AI Challenger数据集验收中

巨丹的观点也得到倪笑海认同,后者是Face++的第4号员工,也是此次AI Challenger提供的三个视觉数据集之一图像中文描述数据集的标注团队负责人。

倪笑海正在打造起一支数据标注方面的正规军,他常对自己的团队说,他们所做的工作可以说是“数字工人”,也可以看做AI前线的认知者,在每一个领域的数据标注中,他们都会因此成为对该领域AI化结合认知最深刻的人。

数据标注的工作,确实不轻松,但也并非外界想象的缺乏前景。

耗资数百万

在Face++,倪笑海承担了这家全球闻名的人脸识别公司光鲜背后的那部分工作,他出身金融财务专业,被印奇、唐文斌和杨沐等人拉拢参与创业,“负责了技术之外所有的事情”。

现在,倪笑海最核心的工作,是为Face++每一个垂直领域的开拓铺垫基础、准备好数据粮草。在Face++,每一名博士都会配备3-4名数据标注人员当助手。而倪笑海领导的300人规模的团队,有些类似于京东壮大过程中的“京东物流”。

这一次给AI Challenger提供图像中文描述数据集标注服务,倪笑海动用了团队中的250人,其中200人标注,50人检查,从2月份正式开工启动,直至近期才基本结束,历时超过7个月时间。

但这还未计入“标准定义”时期的时间。倪笑海认为,这才是一个数据集标注最具挑战的部分。

原本这个数据集标注项目2016年10月就开始寻找团队接手,但在公开标注市场找寻一圈之后,并没有在“客服和运营转型”而来的标注公司中寻得满意的供应商。

于是创新工场投资公司Face++的标注团队进入主办方视野,希望借助经验丰富的Face++标注团队来实现借图像中文描述数据集”标注这一具有挑战的任务。

实际的标注工作并没有马上开始,AI Challenger组委会与Face++标注团队聚在一起,又花了一个月多时间进行任务的“重新定义”。如果不把这个标准工作变成一个可标准化执行的工作,那后期一定问题不少。例如标注的数据会偏,训练出来的模型准确性也会大打折扣。

他认为这个前期定义的需求,需要“产品经理”式的人物定义和梳理,把每一个“描述点”抠清楚。

这也是人类传授机器“智慧”、使其更加“智能”的过程。

比如在最初的设想概念中,图像中文描述数据集中标注“描述”的任务,原始概念是“看图说话,描述图片中的场景”。

但在实际情况出发,这是一个无法标准化完成的任务,因为每一个标注人员之间的主观重心不同、关注点不同,最后描述出的图片可能也会差别巨大。于是在正式启动标注前,组委会和标注团队会花很多时间去明确“场景描述”里的主体,哪些主体需要描述,哪些可以忽略,如何量化描述的正确度。

主干线索明确后,还需要通过多个主观描述让机器算法在学习中找到“客观”,于是在多组对比尝试后,最终选用了5人独立描述1张图片的方式,确保描述的多样性。这是一项对于标注团队来说前所未有的任务。

因为之前的数据集标注,更偏向于垂直领域的算法或自家技术的自检自查,但这次更多出于产业化去做事,试图覆盖学术界到产业界,从落地的角度去看问题,于是标注起来的普适性要求更明显——涉及场景更多,需要的图片数据更广泛,而按照关键词分类,场景数量超过了250个。

倪笑海还透露,在沟通“定义”的过程中,他可以感受到AI Challenger执行委员王咏刚的期望:希望能够倾力投入,从无到有打造一个中文世界的数据集和竞赛,让更多人才和AI交流愈加活跃起来。

量子位请倪笑海对比AI Challenger和ImageNet、MS COCO等数据集,他表示现在后二者在垂直领域上的高精尖地位还无法马上被撼动。此次的数据集建设,创新工场、搜狗、今日头条等主办方致力于广泛参与和影响力,但在将来持续的数据集建设中,超过ImageNet等经典数据集并非没有可能。

关于未来的规划,AI Challenger执行委员兼创新工场AI工程院副院长王咏刚说,主办方将会花几年时间,建成一个具有世界级影响力的科研数据集和竞赛平台。今年的“图像中文描述”、“人体骨骼关键点”、和“翻译数据集”在各自的领域,都形成了独特的优势。但这仅仅是一个开始。接下来,主办方将与最顶尖的学者一起,为最前沿的科学研究建设更多顶级数据集。

然而这并不意味着一切轻而易举,背后的付出很容易被忽略。

王咏刚告诉量子位,这次AI Challenger的数据标注,光成本就花费了数百万元,严格时间投入超过7个月,熟练标注员工投入400人。至少从数据集的角度将,这已是中文世界最具标志意义的AI开发大赛。

数据集

在AI狂飙突进的这几年中,最成功也最经典的数据集,非李飞飞和她的ImageNet莫属。

ImageNet诞生于2009年,在2017年CVPR宣布合并到kaggle,在这8年历程中,完全改变了AI研究的认知、方法,以及留下一个全新的数据集驱动的AI世界。短短7年内,ImageNet优胜者的识别率就从71.8%提升到97.3%,超过了人类,并证明了更庞大的数据可以带来更精确的结果。

很多人都将此视作当今这轮人工智能浪潮的催化剂。更为关键的是,“数据集重新定义了AI从业者对模型的思考方式。”

参与ImageNet挑战赛的企业遍布科技行业的每个角落。2010年的第一场竞赛优胜者都出任了百度、谷歌和华为的高管。马修·泽勒(Matthew Zeiler)利用2013年赢得ImageNet挑战赛时的程序创办了Clarifai公司,目前获得了4000万美元风险投资。

2009年以来,数十个新开发的人工智能研究数据集已经引入了计算机视觉、神经语言处理和语音识别等子领域。如何打造一个ImageNet一样的经典数据集,成为后来者最核心讨论的关键。

在中科院自动化所研究员王亮博士看来,打造ImageNet一样的经典数据集,至少要有三方面的核心投入。

一方面是数据规模,至少是100万级以上的规模,这样才更有说服力;

二是多样性,能够有不同场景下的覆盖,比如人脸识别中,光照、表情、各种角度的多样性是否丰富,都会影响最后结果的准确性和泛化;

三则是数据最好接近真实应用,这样不仅对于学术研究有正向作用,对于技术和产品研发落地,也能不断补足算法开发。

这位国家模式识别重点实验室副主任坦承,做到以上几方面并不容易。

在以往国家模式识别重点实验室的研究中,他们通常的做法是先找可共享的数据集,再不行就自建数据集,但自建则意味着精力和成本投入,即便国家项目中有专门为数据集创建留出的预算,但承担上限也极为清晰,他们尚未有超过50万元规模的投入,这其中还不包括采集相关的费用,真是一件耗时费力的事情。

此外,更便利的方式是和企业合作,企业中的数据集偏向应用,规模和场景也符合,但涉及企业版权、保密等原因,企业开放数据需要机会和运气。

这是王亮博士对此次AI Challenger饱含期待的原因之一。也是这个AI挑战赛从无到有背后最大的挑战。

发起这样的比赛,不仅要投入时间、金钱、人力等各种资源,还要找到并说服合作企业开放数据,而且从结果看,最后搜狗和今日头条开放的数据,也在中国互联网史上堪称前所未见。

在AI challenger宣布推出后的第二天,赛事发起人李开复写下了一篇题为《从1983到2017,我的幸运与遗憾》的文章,详细回顾了1983年至1988年李开复的博士研究往事。

当时在卡内基-梅隆大学攻读计算机博士学位的他,从无到有用统计学的方法,通过建立大型的数据库提升语音识别准确率,并打破了导师坚持的专家系统的研究方式。这让26岁的李开复一战成名。不仅是当年《商业周刊》评选的“1988最重要科学发明”,也让李开复破格留校,成为卡耐基-梅隆大学的助理教授。

其间幸运的是,李开复的博士导师瑞迪(Raj Reddy)给予了这个当时“离经叛道”的学生莫大的支持和鼓励,这位图灵奖得主、CMU终身教授,不仅在精神上表现出“和而不同”的风度,而且在数据库打造和计算资源支持方面,提供了共计30万美元的研发经费支持。

“这在30多年前,我还是一个AI科研人员的时代,能接触到真实世界里如此海量的数据,是个遥不可及的梦想”,谈到这次开放出来的数据集李开复说:“我当年受惠于瑞迪教授的帮助和指导,今天也非常希望能给更多和我一样的年轻人,创造研究机会和条件”。


本文作者:李根 
原文发布时间:2017-09-25
相关文章
|
机器学习/深度学习 人工智能 数据挖掘
数据上新 | AI Earth上线长时序土地覆盖数据集(来自武汉大学黄昕教授团队)
数据上新 | AI Earth上线长时序土地覆盖数据集(来自武汉大学黄昕教授团队)
数据上新 | AI Earth上线长时序土地覆盖数据集(来自武汉大学黄昕教授团队)
|
3月前
|
存储 人工智能 数据可视化
AI计算机视觉笔记二十一:PaddleOCR训练自定义数据集
在完成PaddleOCR环境搭建与测试后,本文档详细介绍如何训练自定义的车牌检测模型。首先,在`PaddleOCR`目录下创建`train_data`文件夹存放数据集,并下载并解压缩车牌数据集。接着,复制并修改配置文件`ch_det_mv3_db_v2.0.yml`以适应训练需求,包括设置模型存储目录、训练可视化选项及数据集路径。随后,下载预训练权重文件并放置于`pretrain_models`目录下,以便进行预测与训练。最后,通过指定命令行参数执行训练、断点续训、测试及导出推理模型等操作。
|
3月前
|
人工智能 数据处理 计算机视觉
AI计算机视觉笔记十六:yolov5训练自己的数据集
本文介绍了一种利用云服务器AutoDL训练疲劳驾驶行为检测模型的方法。由于使用本地CPU训练效率低下,作者选择了性价比高的AutoDL云服务器。首先,从网络获取了2000多张疲劳驾驶行为图片并使用labelimg软件进行标注。接着,详细介绍了在云服务器上创建实例、上传数据集和YOLOv5模型、修改配置文件以及开始训练的具体步骤。整个训练过程耗时约3小时,最终生成了可用于检测的模型文件。
|
6月前
|
人工智能 开发工具 Swift
ModelScope联手OpenDataLab:直接调用7000+开源数据集,赋能AI模型加速研发
魔搭社区和OpenDatalab浦数合作,共同开启一场模型与数据的深度融合,旨在为中国开发者打造更加高效、开放的AI体验。
|
7月前
|
人工智能 vr&ar
[译][AI Research] AI 模型中的“it”是数据集
模型效果的好坏,最重要的是数据集,而不是架构,超参数,优化器。
|
7月前
|
人工智能 监控 数据处理
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】1. 快速上手数据集与测试评估过程
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】1. 快速上手数据集与测试评估过程
130 0
|
7月前
|
人工智能 算法 安全
训练数据集污染与模型算法攻击将成为AI新的棘手问题
【1月更文挑战第11天】训练数据集污染与模型算法攻击将成为AI新的棘手问题
235 3
训练数据集污染与模型算法攻击将成为AI新的棘手问题
|
人工智能
AgentLM:智谱AI对齐Agent能力微调语言模型,模型&数据集均开源
为探索提升智能体任务之间的促进及泛化效果,智谱AI&清华KEG提出了一种对齐Agent能力的微调方法 AgentTuning,该方法使用少量数据微调已有模型,显著激发了模型的 Agent能力,同时可以保持模型原有的通用能力。
|
机器学习/深度学习 人工智能 自然语言处理
KDD 2023 | GPT时代医学AI新赛道:16万张图片、70万问答对的临床问答数据集MIMIC-Diff-VQA发布
KDD 2023 | GPT时代医学AI新赛道:16万张图片、70万问答对的临床问答数据集MIMIC-Diff-VQA发布
252 0
|
机器学习/深度学习 人工智能 监控
仅花费60美元就能破坏0.01%数据集,AI模型性能显著降低
仅花费60美元就能破坏0.01%数据集,AI模型性能显著降低
101 0
下一篇
DataWorks