人类高质量AI训练方式：精细化数据集管理颠覆"唯SOTA论" -阿里云开发者社区

提起人工智能（AI），你可能会想起2006年杰弗里辛顿（Geoffrey Hinton）那篇奠定当代神经网络全新架构的论文“Learning of Multiple Layers of Representation”；也可能会想起为AI提供算力的亚马逊的AWS的云计算平台；又或者是斯坦福李飞飞教授的ImageNet项目。

十几年过去了，当普通人还在沉迷算力、算法给AI带来的进步时，真正的从业者都会承认——AI的发展已经迈向了技术和产业深度融合的新阶段。其中一个标志是：移动互联网的极速发展，智能手机大规模普及，IoT物联网的兴起带来了AI模型训练迭代以及应用落地所需的海量数据。

但仅仅是数据并不能直接产生价值，AI模型需要的是经过处理、清洗、标注、管理的精准数据。换句话说，只有输入准确的数据，才能训练出精准的AI。准确一词给所有的AI企业管理者带来了两个问题：一是需要从“海量”中筛选出符合要求的数据，二是需要“加工”出高质量的数据。

如何满足这两个需求？如果你涉猎一些管理学知识，就能够从百年前汽车行业的巨大变革中寻求答案：

“亨利·福特为了满足消费者对T型车强烈的需求，决定采用流水线的方式生产汽车。每个工人固定在一个工位组装车辆的某一个零件，原先一辆汽车装配时间需要700多个小时，T型车采用流水线作业仅需12.5小时。”

百年前，福特将原先工作状态一锅粥的工人，通过有条理的管理和团队协同，让其综合素质大幅度提高，有效解决了使生产资料、技术、组织和生产过程结合起来的问题。同样，面对今天杂乱无章的海量数据，也必须通过数据管理，提高“数据综合质量”。

流行数据集也有错误，“石油”杂质阻碍AI发展

AI有今天的热度和前无古人的成就，离不开数据、算法和算力这“三驾马车”的贡献，AI和机器学习领域的顶级学者吴恩达尤其看中数据的作用，他曾不止在一个场合说过：

“一个机器学习团队80%的工作应该放在数据准备上，确保数据质量是最重要的工作，每个人都知道应该如此做，但没人在乎。如果更多强调以数据为中心而不是以模型为中心，那么机器学习的发展会更快。”

注意，吴教授提到的“高质量”数据集并不等于大规模流行、通用数据集。麻省理工（MIT）和亚马逊的研究人员曾在一篇论文中对10个常用的测试集进行测试，结果发现它们普遍存在标签错误。错误数据集的领域包含文本、音频、图像等等。

例如权威数据集ImageNet，它会将狒狒标注成了猿（siamang）；将海猫标注成了红色的熊猫，将爱尔兰水犬认成了狼犬.......

那么一些简单的图片，应该不会标注错了吧？如上图所示，数据集界的“顶流”，机器学习从业者入门的手写数据集MNIST也犯了“昏”.......最终，在那项研究中，研究人员总结到：10个流行数据集的测试集平均错误率为3.4%，例如2916个标签错误在ImageNet数据集的验证集中占比6%；39万个标签错误在亚马逊评论中占比4%。

数据集中标有问题单词的图片数量

标注错误只是表现之一，在另一项研究中，学者还发现MIT使用的Tiny Images数据集中有许多有危害类别，包括种族歧视和性别歧视。MIT也意识到了问题的重要性，迅速下线了这一数据集，并发布公告称，由该数据集训练出的AI系统，会潜在地使用种族主义、厌女症和其他激进术语来描述对象，并号召研究员暂停使用和训练。

人们常说“在当今的数字经济中，没有什么资产比数据更有价值”。将数据称为“新石油”已经到了陈词滥调的地步。确实，由于数据在推动机器学习和人工智能解决方案中发挥着至关重要的作用，因此今天的数据如此受到高度重视。从Netflix的推荐引擎到Google的无人驾驶汽车，要训练一个有效运行的AI系统，需要大量的数据。目前业内普遍认为，拥有最多数据的公司才有机会构建最好的AI。从IBM到通用电气的老牌公司都在争相将自己重新命名为“数据公司”。

但我们从前面的研究也可以看出，通用流行数据集拥有大量的错误，在这些数据集中如果能够训练出的新SOTA（state-of-the-art model）或许可以发表顶会论文，但是想要AI落地，则存在大量的风险，尤其在癌症检测、野生生物保护等性命攸关的任务之中。

正如国内领先的AI训练数据头部服务商云测数据总经理贾宇航所言：“通用数据集适合产品初研阶段，当面向AI产品落地阶段，更高质量的场景数据更为重要”。谷歌也曾经做过一款流感趋势预测模型，但由于缺乏高质量场景数据，预测结果甚至偏离了流感峰值的140%。

如何获得高质量数据集？业界还需要在数据标注方面“下功夫”，高精准数据标注才能够从源头解决数据标签错误问题。但高精准一词背后的数据标注已经不是技术门槛很低的工种，毕竟随着人工智能在自动驾驶、金融、医疗、安防等多个领域的大规模落地，它已经开始向多模态、多场景、高精度的角度发展。数据标注这一专业的事情，还需专业的“人”来进行。

根据最新的一份数据标注公司排行榜，数据标注“专业人士”中的No.1云测数据就专注于支持各种类型的数据标注，具有完整的标注管理流程，操作简单、便捷、效率高。据悉，这家公司自主研发了一个名为“云测数据标注平台”的数据处理平台（现已更新至4.0版本），直接将数据标注的最高准确率提升到了99.99%。

但数据标注也只是提高数据质量的一种方式，想要更好的发挥出高质量数据的价值，还可以从数据集管理角度寻找。具体而言，数据生产工具中的数据标注平台和数据集管理系统，特别是可视化管理都在多管齐下的为数据质量“保驾护航”。

“业界目前对数据在人工智能中发挥的作用已经有了清晰的认识，但对数据管理还不够重视，主要原因是数据管理工作比较繁琐。”贾宇航在和大数据文摘交流时如此说道。

和贾宇航英雄所见略同的还有谷歌研究院。这家“伟大的”数据公司曾经调查过印度、东非和西非国家以及美国的53位AI从业者，得出一份关于数据质量在AI中应用现状的访谈报告，其中一个有趣的结论写道：每个人都想做模型工作，而不是数据工作，许多从业者将数据工作描述为耗时且无法追溯的工作。

而在现实业务中，数据科学家百分之八十以上的工作也就是数据管理工作，同时也有三分之一的高管认为，数据相关的挑战是阻碍公司实施AI战略的三大“拦路虎”之一。主要原因是将原始和不准确的数据输入AI模型之前对其进行清洗、管理。这是个非常繁琐的过程，德勤咨询就曾在行业调查报告中写道：公司通常需要花费6~12月时间来整理数据，这一步不能省略，因为后期应对不良数据集的成本会急剧上升。

贾宇航告诉大数据文摘：“在过去传统的方式中，企业安排专人管理数据可能面临着数据检索繁琐、协同能力弱、查询耗时长等问题。当企业引入科学的数据标注结果可视化工具，便能大幅度提高管理效率、理解数据。”，“数据管理确实能够提升数据质量，其中一个角度是它能够将'旧'的数据重复使用，能够帮助从海量数据中找到有价值的信息”。

"治乱"需优化数据管理，智能引擎蕴含人类知识

数据管理可以被定义为包括收集、处理、分析、验证、存储、保护和监控数据以确保数据的一致性、准确性和可靠性的过程。从定义可以看出，经过“管理”的数据除了拥有统一、标准化、条理等特点，更重要的是能够清晰看到数据的属性。话句话说，通过观察经过管理的数据，从业者能够获得关于行业知识的洞察。

知识被认为是下一代AI的重要推动力量，清华大学人工智能研究院名誉院长、中国科学院院士张钹教授曾经多次表达过行业知识在AI中的重要作用，并在纪念《中国科学》创刊70周年中专刊评述到：第三代人工智能的发展路径是融合第一代的知识驱动和第二代的数据驱动的人工智能，同时要利用知识、数据、算法和算力等四个要素。

如何获得知识要素，显而易见，数据管理是一条重要的渠道。数据管理背后蕴含对数据的计划、组织、领导、协调、控制，而这些关键词自然是人类的无上智慧，经过管理，人类知识自动赋能海量数据。

那么，是什么在阻碍公司通过数据管理获得知识？

首先我们要承认，公司或许拥有众多优质资产，更有可能随着公司业务的快速发展，建立起大量的业务和管理系统，并在过程中积累海量的业务数据。但是，对数据管理重视仍然不够，存在诸多数据问题，致使这些数据的价值难以充分发挥，无法有效支撑企业管理和决策。主要存在于AI数据集管理的问题如下：

1.缺乏统一规划和统一管理。在信息系统建设时没有考虑到跨系统的数据关联性和开放共享方面的需求，致使各系统相对独立，造成各系统互联互通困难，各系统之间形成了许多信息孤岛，影响了各系统之间的集成交互。

2.缺乏统一数据标准管理。各系统都基于自己的需要定义数据代码、数据规格和语义，致使系统间难以实施数据融合和数据共享，给数据协同形成严重阻碍。

3.缺乏统一的数据质量管理。从数据新增、数据审核、数据冻结、数据解冻等各个环节，缺乏针对数据质量的有效控制，无法保障数据质量的准确性、一致性、完整性。

由此可见，全面的数据管理不可能只是这么简单的几板斧功夫，数据工作都是体力活，从此业者需要有福尔摩斯的精明慧眼，但是工作中却没有福尔摩斯的神气和优雅。因此，搭建智能数据治理引擎优化数据的管理效率非常有必要。正如贾宇航所言：“事实上，看了很多实际案例以后，我们发现，运用AI数据集管理系统的企业，其运转的节奏、迭代的周期都在加快，研发方式也从瀑布式开发向敏捷开发转变了，实现更高效数据管理。”

释放AI数据价值，需要专业的数据管理

如何建立统一的标准和有效的数据管理体系？在回答这个问题之前，我们要明白，AI数据集管理的关键词除了简单和高效，还要对数据业务相关的行为有管理和约束。因此，建立数据集管理体系应该包含：安全、透明、灵活、可理解等原则。

为了说明数据集管理系统如何释放AI数据价值，贾宇航给我们举了一个例子：

“如一家做金融文本识别（OCR）的企业，应用AI数据集管理系统给自身的数据进行场景化的标签选定和存储。其数据量非常庞大，且数据场景复杂。但运用管理系统可以根据票据不同，文字类型不同，以及光线场景角度不同等情况给出不同标签的结果。

比如在机器对于暗光的照片的识别效果不好的情况下，就可以通过数据管理系统中标签功能，调动已有数据库中对应的暗光数据，快速完成数据抽取和验证，实现数据管理事半功倍的效果。

针对相关问题，近日云测数据也将管理数据集的专业经验集成起来，发布了云测数据标注平台-AI数据集管理系统，旨在帮助AI开发者安全、高效的管理各类型数据集，包括但不仅限于视觉、语音、文本等类型。云测数据希望企业能够通过有效的数据集管理，真正的将数据看成资产进行管理，因此引入了多团队协作管理，数据资产统计功能，可以实现数据集权限分配，按需使用。

这一管理系统充分尊重了数据管理上安全、透明、灵活的原则：云测数据标注平台-AI数据集管理系统通过易扩展的数据存储方案，支持自有其他存储类型资源导入，支持混合云存储构架，帮助开发者安全存储数据、降低存储成本，并可根据数据敏感度对数据分级。

云测数据官网：

https://ai.testin.cn/dataset_tool.htm

针对数据安全，云测数据有安全测试和渗透测试等相关的专家为平台架构保驾护航；在整个服务数据之中，除了技术上的隐私安全保证，数据采集和标注领域对应的员工的责任、规范也是其非常重视的，云测数据会通过培训、辅导等方式帮助企业清晰数据使用过程的数据安全、隐私等要求。

图注：支持box2d、ellipse、polygon、line、curve、point、parallel、box3d、cuboid、side_cuboid、sentence等多种可视化工具

此外，在理解和检查数据方面，它拥有丰富的可视化组件，支持连续帧、ID跟踪、点云多传感融合、音视频等多种数据场景，支持标签筛选、分组显示、旋转变化等交互查看方式，使数据更容易理解和检查。

同时它还提供多种数据检索工具，支持针对每份数据进行meta信息存储检索、根据标注结果标签检索、传感器检索、跟踪帧检索等。并可根据检索结果快速生成数据子级。方便根据算法场景，挑选最符合样本数据进行训练。

作为一家专业的训练数据服务提供商，云测数据标注平台已有丰富的项目经验和技术积累的沉淀。经验和技术是它拿下行业头部的原因，但对未来的看法才能够决定它能走多远，能为AI发展提供怎样的服务。

谈到未来发展，贾宇航表示，针对AI训练数据的特点，云测数据制定了“一横一纵”的战略。在纵向领域，云测数据会深挖行业的深度，做到单行业多维度覆盖；在横向领域，则会关注其他不同行业的落地方向，通过打通领域的之间的障碍，将AI训练数据服务的经验应用到更多具有增长潜力的行业。

“现代管理学之父”彼得.德鲁克早在20年前的《21世纪的管理挑战》鲜明地指出：“你们所热衷的IT，即Information Technology，只是IT里面的T，在21世界的新一轮信息革命中，T即技术层面的重要性将大大下降，取而代之的将是I，即信息的内容和实质。

20年前的这句话放到今天仍然适用，人工智能正处在新一轮的信息革命中，能够更好地管理和应用数据，才能在AI大潮中挖掘到真正的宝藏。

人类高质量AI训练方式：精细化数据集管理颠覆"唯SOTA论"

AI有今天的热度和前无古人的成就，离不开数据、算法和算力这“三驾马车”的贡献，AI和机器学习领域的顶级学者吴恩达尤其看中数据的作用，他曾不止在一个场合说过：

大数据文摘

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

人类高质量AI训练方式：精细化数据集管理颠覆"唯SOTA论"

AI有今天的热度和前无古人的成就，离不开数据、算法和算力这“三驾马车”的贡献，AI和机器学习领域的顶级学者吴恩达尤其看中数据的作用，他曾不止在一个场合说过：

大数据文摘

热门文章

最新文章

相关课程

相关电子书

相关实验场景