人类高质量AI训练方式:精细化数据集管理颠覆"唯SOTA论"

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
简介: 提起人工智能(AI),你可能会想起2006年杰弗里辛顿(Geoffrey Hinton)那篇奠定当代神经网络全新架构的论文“Learning of Multiple Layers of Representation”;也可能会想起为AI提供算力的亚马逊的AWS的云计算平台;又或者是斯坦福李飞飞教授的ImageNet项目。

提起人工智能(AI),你可能会想起2006年杰弗里辛顿(Geoffrey Hinton)那篇奠定当代神经网络全新架构的论文“Learning of Multiple Layers of Representation”;也可能会想起为AI提供算力的亚马逊的AWS的云计算平台;又或者是斯坦福李飞飞教授的ImageNet项目。

 

十几年过去了,当普通人还在沉迷算力、算法给AI带来的进步时,真正的从业者都会承认——AI的发展已经迈向了技术和产业深度融合的新阶段。其中一个标志是:移动互联网的极速发展,智能手机大规模普及,IoT物联网的兴起带来了AI模型训练迭代以及应用落地所需的海量数据。

 

但仅仅是数据并不能直接产生价值,AI模型需要的是经过处理、清洗、标注、管理的精准数据。换句话说,只有输入准确的数据,才能训练出精准的AI。准确一词给所有的AI企业管理者带来了两个问题:一是需要从“海量”中筛选出符合要求的数据,二是需要“加工”出高质量的数据。

 

如何满足这两个需求?如果你涉猎一些管理学知识,就能够从百年前汽车行业的巨大变革中寻求答案:

“亨利·福特为了满足消费者对T型车强烈的需求,决定采用流水线的方式生产汽车。每个工人固定在一个工位组装车辆的某一个零件,原先一辆汽车装配时间需要700多个小时,T型车采用流水线作业仅需12.5小时。”

image.gifimage.png

 

百年前,福特将原先工作状态一锅粥的工人,通过有条理的管理和团队协同,让其综合素质大幅度提高,有效解决了使生产资料、技术、组织和生产过程结合起来的问题。同样,面对今天杂乱无章的海量数据,也必须通过数据管理,提高“数据综合质量”。

流行数据集也有错误,“石油”杂质阻碍AI发展

AI有今天的热度和前无古人的成就,离不开数据、算法和算力这“三驾马车”的贡献,AI和机器学习领域的顶级学者吴恩达尤其看中数据的作用,他曾不止在一个场合说过:

 

“一个机器学习团队80%的工作应该放在数据准备上,确保数据质量是最重要的工作,每个人都知道应该如此做,但没人在乎。如果更多强调以数据为中心而不是以模型为中心,那么机器学习的发展会更快。”

 

注意,吴教授提到的“高质量”数据集并不等于大规模流行、通用数据集。麻省理工(MIT)和亚马逊的研究人员曾在一篇论文中对10个常用的测试集进行测试,结果发现它们普遍存在标签错误。错误数据集的领域包含文本、音频、图像等等。

 

image.gifimage.png

 

例如权威数据集ImageNet,它会将狒狒标注成了猿 (siamang);将海猫标注成了红色的熊猫,将爱尔兰水犬认成了狼犬.......

 

image.gifimage.png

那么一些简单的图片,应该不会标注错了吧?如上图所示,数据集界的“顶流”,机器学习从业者入门的手写数据集MNIST也犯了“昏”.......最终,在那项研究中,研究人员总结到:10个流行数据集的测试集平均错误率为3.4%,例如2916个标签错误在ImageNet数据集的验证集中占比6%;39万个标签错误在亚马逊评论中占比4%。

 

image.gifimage.png

数据集中标有问题单词的图片数量

 

标注错误只是表现之一,在另一项研究中,学者还发现MIT使用的Tiny   Images数据集中有许多有危害类别,包括种族歧视和性别歧视。MIT也意识到了问题的重要性,迅速下线了这一数据集,并发布公告称,由该数据集训练出的AI系统,会潜在地使用种族主义、厌女症和其他激进术语来描述对象,并号召研究员暂停使用和训练。

 

人们常说“在当今的数字经济中,没有什么资产比数据更有价值”。将数据称为“新石油”已经到了陈词滥调的地步。确实,由于数据在推动机器学习和人工智能解决方案中发挥着至关重要的作用,因此今天的数据如此受到高度重视。从Netflix的推荐引擎到Google的无人驾驶汽车,要训练一个有效运行的AI系统,需要大量的数据。目前业内普遍认为,拥有最多数据的公司才有机会构建最好的AI。从IBM到通用电气的老牌公司都在争相将自己重新命名为“数据公司”。

 

但我们从前面的研究也可以看出,通用流行数据集拥有大量的错误,在这些数据集中如果能够训练出的新SOTA(state-of-the-art model)或许可以发表顶会论文,但是想要AI落地,则存在大量的风险,尤其在癌症检测、野生生物保护等性命攸关的任务之中。

 

正如国内领先的AI训练数据头部服务商云测数据总经理贾宇航所言:“通用数据集适合产品初研阶段,当面向AI产品落地阶段,更高质量的场景数据更为重要”。谷歌也曾经做过一款流感趋势预测模型,但由于缺乏高质量场景数据,预测结果甚至偏离了流感峰值的140%

 

如何获得高质量数据集?业界还需要在数据标注方面“下功夫”,高精准数据标注才能够从源头解决数据标签错误问题。但高精准一词背后的数据标注已经不是技术门槛很低的工种,毕竟随着人工智能在自动驾驶、金融、医疗、安防等多个领域的大规模落地,它已经开始向多模态、多场景、高精度的角度发展。数据标注这一专业的事情,还需专业的“人”来进行。

 

image.png

根据最新的一份数据标注公司排行榜,数据标注“专业人士”中的No.1云测数据就专注于支持各种类型的数据标注,具有完整的标注管理流程,操作简单、便捷、效率高。据悉,这家公司自主研发了一个名为“云测数据标注平台”的数据处理平台(现已更新至4.0版本),直接将数据标注的最高准确率提升到了99.99%。

 

但数据标注也只是提高数据质量的一种方式,想要更好的发挥出高质量数据的价值,还可以从数据集管理角度寻找。具体而言,数据生产工具中的数据标注平台和数据集管理系统,特别是可视化管理都在多管齐下的为数据质量“保驾护航”。

 

“业界目前对数据在人工智能中发挥的作用已经有了清晰的认识,但对数据管理还不够重视,主要原因是数据管理工作比较繁琐。”贾宇航在和大数据文摘交流时如此说道。

 

和贾宇航英雄所见略同的还有谷歌研究院。这家“伟大的”数据公司曾经调查过印度、东非和西非国家以及美国的53位AI从业者,得出一份关于数据质量在AI中应用现状的访谈报告,其中一个有趣的结论写道:每个人都想做模型工作,而不是数据工作,许多从业者将数据工作描述为耗时且无法追溯的工作。

image.gifimage.png

而在现实业务中,数据科学家百分之八十以上的工作也就是数据管理工作,同时也有三分之一的高管认为,数据相关的挑战是阻碍公司实施AI战略的三大“拦路虎”之一。主要原因是将原始和不准确的数据输入AI模型之前对其进行清洗、管理。这是个非常繁琐的过程,德勤咨询就曾在行业调查报告中写道:公司通常需要花费6~12月时间来整理数据,这一步不能省略,因为后期应对不良数据集的成本会急剧上升。

 

贾宇航告诉大数据文摘:“在过去传统的方式中,企业安排专人管理数据可能面临着数据检索繁琐、协同能力弱、查询耗时长等问题。当企业引入科学的数据标注结果可视化工具,便能大幅度提高管理效率、理解数据。”,“数据管理确实能够提升数据质量,其中一个角度是它能够将'旧'的数据重复使用,能够帮助从海量数据中找到有价值的信息”。

"治乱"需优化数据管理,智能引擎蕴含人类知识

数据管理可以被定义为包括收集、处理、分析、验证、存储、保护和监控数据以确保数据的一致性、准确性和可靠性的过程。从定义可以看出,经过“管理”的数据除了拥有统一、标准化、条理等特点,更重要的是能够清晰看到数据的属性。话句话说,通过观察经过管理的数据,从业者能够获得关于行业知识的洞察。

image.gifimage.png

知识被认为是下一代AI的重要推动力量,清华大学人工智能研究院名誉院长、中国科学院院士张钹教授曾经多次表达过行业知识在AI中的重要作用,并在纪念《中国科学》创刊70周年中专刊评述到:第三代人工智能的发展路径是融合第一代的知识驱动和第二代的数据驱动的人工智能,  同时要利用知识、数据、算法和算力等四个要素。

 

如何获得知识要素,显而易见,数据管理是一条重要的渠道。数据管理背后蕴含对数据的计划、组织、领导、协调、控制,而这些关键词自然是人类的无上智慧,经过管理,人类知识自动赋能海量数据。

 

那么,是什么在阻碍公司通过数据管理获得知识?

 

首先我们要承认,公司或许拥有众多优质资产,更有可能随着公司业务的快速发展,建立起大量的业务和管理系统,并在过程中积累海量的业务数据。但是,对数据管理重视仍然不够,存在诸多数据问题,致使这些数据的价值难以充分发挥,无法有效支撑企业管理和决策。主要存在于AI数据集管理的问题如下:

 

1.缺乏统一规划和统一管理。在信息系统建设时没有考虑到跨系统的数据关联性和开放共享方面的需求,致使各系统相对独立,造成各系统互联互通困难,各系统之间形成了许多信息孤岛,影响了各系统之间的集成交互。

 

2.缺乏统一数据标准管理。各系统都基于自己的需要定义数据代码、数据规格和语义,致使系统间难以实施数据融合和数据共享,给数据协同形成严重阻碍。

 

3.缺乏统一的数据质量管理。从数据新增、数据审核、数据冻结、数据解冻等各个环节,缺乏针对数据质量的有效控制,无法保障数据质量的准确性、一致性、完整性。

 

由此可见,全面的数据管理不可能只是这么简单的几板斧功夫,数据工作都是体力活,从此业者需要有福尔摩斯的精明慧眼,但是工作中却没有福尔摩斯的神气和优雅。因此,搭建智能数据治理引擎优化数据的管理效率非常有必要。正如贾宇航所言:“事实上,看了很多实际案例以后,我们发现,运用AI数据集管理系统的企业,其运转的节奏、迭代的周期都在加快,研发方式也从瀑布式开发向敏捷开发转变了,实现更高效数据管理。”

释放AI数据价值,需要专业的数据管理

如何建立统一的标准和有效的数据管理体系?在回答这个问题之前,我们要明白,AI数据集管理的关键词除了简单和高效,还要对数据业务相关的行为有管理和约束。因此,建立数据集管理体系应该包含:安全、透明、灵活、可理解等原则。

 

为了说明数据集管理系统如何释放AI数据价值,贾宇航给我们举了一个例子:

 

“如一家做金融文本识别(OCR)的企业,应用AI数据集管理系统给自身的数据进行场景化的标签选定和存储。其数据量非常庞大,且数据场景复杂。但运用管理系统可以根据票据不同,文字类型不同,以及光线场景角度不同等情况给出不同标签的结果。

 

比如在机器对于暗光的照片的识别效果不好的情况下,就可以通过数据管理系统中标签功能,调动已有数据库中对应的暗光数据,快速完成数据抽取和验证,实现数据管理事半功倍的效果。

 

image.gifimage.png

针对相关问题,近日云测数据也将管理数据集的专业经验集成起来,发布了云测数据标注平台-AI数据集管理系统,旨在帮助AI开发者安全、高效的管理各类型数据集,包括但不仅限于视觉、语音、文本等类型。云测数据希望企业能够通过有效的数据集管理,真正的将数据看成资产进行管理,因此引入了多团队协作管理,数据资产统计功能,可以实现数据集权限分配,按需使用。

 

这一管理系统充分尊重了数据管理上安全、透明、灵活的原则:云测数据标注平台-AI数据集管理系统通过易扩展的数据存储方案,支持自有其他存储类型资源导入,支持混合云存储构架,帮助开发者安全存储数据、降低存储成本,并可根据数据敏感度对数据分级。

 image.png

image.gif

云测数据官网:

https://ai.testin.cn/dataset_tool.htm

 

针对数据安全,云测数据有安全测试和渗透测试等相关的专家为平台架构保驾护航;在整个服务数据之中,除了技术上的隐私安全保证,数据采集和标注领域对应的员工的责任、规范也是其非常重视的,云测数据会通过培训、辅导等方式帮助企业清晰数据使用过程的数据安全、隐私等要求。

 

image.png

图注:支持box2d、ellipse、polygon、line、curve、point、parallel、box3d、cuboid、side_cuboid、sentence等多种可视化工具

 

此外,在理解和检查数据方面,它拥有丰富的可视化组件,支持连续帧、ID跟踪、点云多传感融合、音视频等多种数据场景,支持标签筛选、分组显示、旋转变化等交互查看方式,使数据更容易理解和检查。

 

同时它还提供多种数据检索工具,支持针对每份数据进行meta信息存储检索、根据标注结果标签检索、传感器检索、跟踪帧检索等。并可根据检索结果快速生成数据子级。方便根据算法场景,挑选最符合样本数据进行训练。

 

作为一家专业的训练数据服务提供商,云测数据标注平台已有丰富的项目经验和技术积累的沉淀。经验和技术是它拿下行业头部的原因,但对未来的看法才能够决定它能走多远,能为AI发展提供怎样的服务。

 

谈到未来发展,贾宇航表示,针对AI训练数据的特点,云测数据制定了“一横一纵”的战略。在纵向领域,云测数据会深挖行业的深度,做到单行业多维度覆盖;在横向领域,则会关注其他不同行业的落地方向,通过打通领域的之间的障碍,将AI训练数据服务的经验应用到更多具有增长潜力的行业。

 

“现代管理学之父”彼得.德鲁克早在20年前的《21世纪的管理挑战》鲜明地指出:“你们所热衷的IT,即Information  Technology,只是IT里面 的T,在21世界的新一轮信息革命中,T即技术层面的重要性将大大下降,取而代之的将是I,即信息的内容和实质。

 

20年前的这句话放到今天仍然适用,人工智能正处在新一轮的信息革命中,能够更好地管理和应用数据,才能在AI大潮中挖掘到真正的宝藏。

相关实践学习
MySQL基础-学生管理系统数据库设计
本场景介绍如何使用DMS工具连接RDS,并使用DMS图形化工具创建数据库表。
相关文章
|
2月前
|
JSON 人工智能 数据格式
AI计算机视觉笔记二十六:YOLOV8自训练关键点检测
本文档详细记录了使用YOLOv8训练关键点检测模型的过程。首先通过清华源安装YOLOv8,并验证安装。接着通过示例权重文件与测试图片`bus.jpg`演示预测流程。为准备训练数据,文档介绍了如何使用`labelme`标注工具进行关键点标注,并提供了一个Python脚本`labelme2yolo.py`将标注结果从JSON格式转换为YOLO所需的TXT格式。随后,通过Jupyter Notebook可视化标注结果确保准确性。最后,文档展示了如何组织数据集目录结构,并提供了训练与测试代码示例,包括配置文件`smoke.yaml`及训练脚本`train.py`,帮助读者完成自定义模型的训练与评估。
|
1月前
|
Python 机器学习/深度学习 人工智能
手把手教你从零开始构建并训练你的第一个强化学习智能体:深入浅出Agent项目实战,带你体验编程与AI结合的乐趣
【10月更文挑战第1天】本文通过构建一个简单的强化学习环境,演示了如何创建和训练智能体以完成特定任务。我们使用Python、OpenAI Gym和PyTorch搭建了一个基础的智能体,使其学会在CartPole-v1环境中保持杆子不倒。文中详细介绍了环境设置、神经网络构建及训练过程。此实战案例有助于理解智能体的工作原理及基本训练方法,为更复杂应用奠定基础。首先需安装必要库: ```bash pip install gym torch ``` 接着定义环境并与之交互,实现智能体的训练。通过多个回合的试错学习,智能体逐步优化其策略。这一过程虽从基础做起,但为后续研究提供了良好起点。
132 4
手把手教你从零开始构建并训练你的第一个强化学习智能体:深入浅出Agent项目实战,带你体验编程与AI结合的乐趣
|
2月前
|
人工智能 开发工具 计算机视觉
AI计算机视觉笔记三十:yolov8_obb旋转框训练
本文介绍了如何使用AUTODL环境搭建YOLOv8-obb的训练流程。首先创建虚拟环境并激活,然后通过指定清华源安装ultralytics库。接着下载YOLOv8源码,并使用指定命令开始训练,过程中可能会下载yolov8n.pt文件。训练完成后,可使用相应命令进行预测测试。
|
2月前
|
人工智能 PyTorch 算法框架/工具
AI计算机视觉笔记二十二:基于 LeNet5 的手写数字识别及训练
本文介绍了使用PyTorch复现LeNet5模型并检测手写数字的过程。通过搭建PyTorch环境、安装相关库和下载MNIST数据集,实现了模型训练与测试。训练过程涉及创建虚拟环境、安装PyTorch及依赖库、准备数据集,并编写训练代码。最终模型在测试集上的准确率达到0.986,满足预期要求。此项目为后续在RK3568平台上部署模型奠定了基础。
|
2月前
|
人工智能 测试技术 PyTorch
AI计算机视觉笔记二十四:YOLOP 训练+测试+模型评估
本文介绍了通过正点原子的ATK-3568了解并实现YOLOP(You Only Look Once for Panoptic Driving Perception)的过程,包括训练、测试、转换为ONNX格式及在ONNX Runtime上的部署。YOLOP由华中科技大学团队于2021年发布,可在Jetson TX2上达到23FPS,实现了目标检测、可行驶区域分割和车道线检测的多任务学习。文章详细记录了环境搭建、训练数据准备、模型转换和测试等步骤,并解决了ONNX转换过程中的问题。
|
2月前
|
存储 人工智能 数据可视化
AI计算机视觉笔记二十一:PaddleOCR训练自定义数据集
在完成PaddleOCR环境搭建与测试后,本文档详细介绍如何训练自定义的车牌检测模型。首先,在`PaddleOCR`目录下创建`train_data`文件夹存放数据集,并下载并解压缩车牌数据集。接着,复制并修改配置文件`ch_det_mv3_db_v2.0.yml`以适应训练需求,包括设置模型存储目录、训练可视化选项及数据集路径。随后,下载预训练权重文件并放置于`pretrain_models`目录下,以便进行预测与训练。最后,通过指定命令行参数执行训练、断点续训、测试及导出推理模型等操作。
|
2月前
|
机器学习/深度学习 人工智能 测试技术
AI计算机视觉笔记二十五:ResNet50训练部署教程
该项目旨在训练ResNet50模型并将其部署到RK3568开发板上。首先介绍了ResNet50网络,该网络由何恺明等人于2015年提出,解决了传统卷积神经网络中的退化问题。项目使用车辆分类数据集进行训练,并提供了数据集下载链接。环境搭建部分详细描述了虚拟环境的创建和所需库的安装。训练过程中,通过`train.py`脚本进行了15轮训练,并可视化了训练和测试结果。最后,项目提供了将模型转换为ONNX和PT格式的方法,以便在RK3568上部署。
|
2月前
|
人工智能 计算机视觉 Python
AI计算机视觉笔记十九:Swin Transformer训练
本文介绍了使用自定义数据集训练和测试目标检测模型的步骤。首先,通过安装并使用标注工具labelme准备数据集;接着修改配置文件以适应自定义类别,并调整预训练模型;然后解决训练过程中遇到的依赖冲突问题并完成模型训练;最后利用测试命令验证模型效果。文中提供了具体命令及文件修改指导。
|
2月前
|
人工智能 PyTorch 算法框架/工具
AI计算机视觉笔记十二:基于 LeNet5 的手写数字识别及训练
本文档介绍了如何使用PyTorch框架复现经典的LeNet5模型,并通过MNIST数据集进行训练与测试。首先,创建虚拟环境并安装所需库,接着下载MNIST数据集。训练部分涉及四个主要文件:`LeNet5.py`、`myDatast.py`、`readMnist.py` 和 `train.py`。通过这些文件搭建模型并完成训练过程。最后,通过测试脚本验证模型准确性,结果显示准确率达到0.986,满足预期需求。文档还提供了详细的环境配置和代码实现细节。
|
3月前
|
机器学习/深度学习 人工智能 算法
就AI 基础设施的演进与挑战问题之大模型训练过程中的问题如何解决
就AI 基础设施的演进与挑战问题之大模型训练过程中的问题如何解决

热门文章

最新文章