向产业链精细化进军:AI该如何深挖训练数据价值?

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
简介: AI算法工程师像普通用户在搜索引擎上搜索信息一样,将数据标注结果的标签(例如,车辆、树木)输入到互动窗口,所有与之有关的AI数据“元信息”就被筛选出来,随后,工程师用新的方式将这些数据重新“打包”构建起一个新的场景库,导入到AI模型的训练过程当中,一次针对特定场景的迭代训练就这样开始了。

AI算法工程师像普通用户在搜索引擎上搜索信息一样,将数据标注结果的标签(例如,车辆、树木)输入到互动窗口,所有与之有关的AI数据“元信息”就被筛选出来,随后,工程师用新的方式将这些数据重新“打包”构建起一个新的场景库,导入到AI模型的训练过程当中,一次针对特定场景的迭代训练就这样开始了。


如果工程师需要,还可以根据最初采集数据的传感器,或诸多其他区分数据的属性来精确定位数据。


这是某自动驾驶AI开发企业里的一次专注于特定场景AI模型训练的工作日常,看起来再正常不过,而在这之前,这家企业长期面临在庞大冗杂的训练数据库里难以筛选有价值数据进行特定场景模型训练的尴尬问题,“守着金山挖不动”。


问题的解决,是从采用了专门针对“AI数据集”的管理系统开始的——这个AI企业工作切面的背后,反映的是AI“产业链条”上值得关注的变化。


AI场景化落地正随着数字经济的全面渗透而进入提速阶段,算法、算力和数据共同构成技术发展的三大核心要素,打通这三大环节才能让一个个AI应用真正落地到具体场景里产生价值。由此,在走向最终的产业应用之前,“生产”AI应用的“产业链条”上也蕴含了无数的商业机会。


但是,在数据层面,过去多数人最关心的只有喂养AI模型的“量”够不够用、数据的“质”够不够精准,而现在,数据这个AI“产业链条”的重要环节还在进一步细化,专业的AI数据集管理——Al数据集的上传、管理、存储、分享,正展示出推动高质量AI应用落地的价值,例如不久前的2021服贸会上,原本以高质量AI训练数据服务见长于业内的云测数据,就在其云测数据标注平台基础上发布了AI数据集管理系统,要为企业提供专业的AI数据集管理服务。


而这个赛道上不只有云测数据,多种主体参与的产业现象正在这里形成,也带来当下人工智能领域重要的创新机遇。



按下葫芦浮起瓢,

AI数据集管理挑战显现


诚然,随着算法模型、技术理论和应用场景的不断突破,加之“新基建”浪潮下算力基础设施的快速建设,AI产业对数据“量”的需求在不断增长,数据量“短缺”一度成为AI产业链条上的瓶颈问题。


但是,这可能并不会持续很长时间,嗅到机会的科技巨头、创新企业前些年在数据采集与标注上广泛布局,推动合格数据的“量”快速增长,这也使得数据标注行业作为AI上游基础产业在短短数年间实现了爆发式发展。


有数据显示,2019年、2020年,数据标注行业市场规模为30.9亿元、36亿元左右,年均复合增长率20%左右,预计到2025年,国内数据标注市场规模将突破100亿元大关。


这背后,根据AI数据标注猿统计数据,2020年4月,国内数据标注业务相关公司数量为565家,2020年12月,数量增长至705家,2020年4月份到12月份的相关数据标注需求公司增量为24.78%,约20万全职从业者与约100万兼职从业者,正在让AI产业走出数据荒。


当然,AI数据也不仅仅来源于数据标注,互联网科技的快速发展也在助推中国数据“供给量”的总体提升,在IDC的报告中,中国的数据量增速比全球快3%,预计到2025年将增至48.6ZB,占全球总量的27.8%,年复合增长率达30.35%。


但是,量的问题一定程度上解决后,新的问题又冒了出来——如何更高效地利用数据,发挥数据的价值。其重要背景,是AI应用的开发方式发生了从项目制到敏捷开发的重要转变:


过去AI模型训练以一个个项目为主,做完项目、得出一个预期质量的AI模型后,使用过的数据便被“丢弃”;而现在,企业倾向于持续把过去已有的数据利用起来,逐步形成属于企业的数据池子,将数据在多个相关模型开发中进行重复利用。


这就导致单个企业所积累的数据量越来越多,而众所周知数据量的增长又以非结构化数据为主,企业所面临的AI数据集管理的挑战越来越明显,例如,数据量太大,针对特殊的场景缺乏精准的方式去找到有价值的数据;原本数据管理凌乱,本地服务器存一点、云端有一点,版本更新不同步,甚至出现一个Excel表格管理数据的现象;数据随意拷贝、传输,存在重大的资产损失风险等等。


显而易见,这时候,能够帮助企业管理好AI数据,就成了重要的创新机遇。


到目前为止,有三类不同背景的玩家在加入赛道:

一是原本就向企业提供数据采集与标注服务的厂商,例如开篇提到的云测数据,这类企业入局,是AI“产业链条”自然延伸的结果。


从行业地位看,在《互联网周刊》&eNet研究院、德本咨询联合发布的《2021数据标注公司排行》中,云测数据凭借最高99.99%精准度数据标注能力和场景化训练数据方案等,再次排在“数据标注公司排行”榜首位置,其云测数据标注平台4.0能够实现AI数据训练综合效率提升200%。


但是,越是如此,云测数据这样的平台就越绕不过企业AI数据管理的问题——如果只是提供数据、帮助训练效率提升,而不推动企业“搞定”数据管理,随着企业面临数据管理的挑战,其商业模式越往下走就越会越到障碍,这时候,就只能在已有的技术和服务经验积累的基础之上拓展AI产业链条细化环节,推出专门的针对AI数据集管理的技术系统——也顺势成为国内首个该领域的系统。


可以说,云测数据推出AI数据集管理系统,既是基于人工智能行业前瞻性发展的具象化技术产品体现,为企业寻找新的发展空间,也是AI产业链条闭环的一种倒逼。


其优势在于,作为原来的AI训练数据服务商,借助AI数据集管理系统,可以以“全生命周期关注”的姿态走进需求企业,推动企业从最开始的数据获取到最终的产业落地全周期效率提升,帮助客户企业整体化思考,也契合AI发展告别项目制走向敏捷开发的趋势。而作为原本AI训练数据服务领域的领导者,云测数据的智能驾驶、智慧城市、智能家居、智慧金融、新零售等众多垂直领域的数据服务技术与经验可以很好地横移到AI数据集管理当中,在数据检索、数据呈现、数据安全保障等方面有垂直化的经验壁垒。


二是互联网、科技领域的大厂,它们都具备云计算方面的数据管理基础禀赋,其入局,是从数据管理大赛道延展到AI数据集管理小赛道的客观结果。


较为典型的是IBM,面向中国市场提供混合数据管理系统,“利用数据管理驱动AI”是官方宣称的重要价值之一,例如其IBM Cloud Pak for Data,产品功能是帮助企业收集、组织和分析数据,“以实现有影响力的AI”,而其实现主要包括在容器化的环境中运行IBM Db2 Warehouse等——不需要知道这是什么,只要知道这些原本就用于云计算数据管理即可。


其他如从事数据标注的百度、阿里等,其云计算中都或多或少包含AI数据集管理的能力,只不过并非专门的系统,这类企业的优势在于,原本的数据管理往往会积累一定的基础客户量,在品牌上也有大厂背书。


三是“白手起家”,直接切入赛道的创新企业,这类企业以寻找商业机会为直接目标。


例如来自上海的格物钛,主要提供面向机器学习的数据管理 SaaS 产品,支持企业进行海量数据托管,宣称要提供“人工智能基础设施”,该企业目前得到了红杉、云启、真格以及风和资本的千万美金Pre-A轮融资,这从侧面反映了AI数据集管理的价值潜力。


这类企业的优势在于轻装上阵,在资本的青睐和支撑下似乎可以把产品做得更精细化,当然,它们的出现,也意味着后续将有更多过去与AI数据集没有“渊源”的创新企业加入,这个赛道会越来越热闹。



标准化的四个维度,

AI数据集管理挖掘AI产业链细化环节的创新价值


从具体做法来看,不管什么来路,做AI数据集管理,无非都包括标准化的四个维度,只不过实现方式各不相同。


首先,是便捷的数据检索和利用。


量大且非标准化,池子还在不断扩大,于是方便的检索和利用就成为AI数据集管理的核心任务。


这方面,IBM使用了开放式平台上的自动容器化功能,通过架构优势来让数据收集和管理变得更加简单智能,易于访问;而云测数据等企业都采用的是清晰化的标签与属性体系让工程师可以快速找到想要的数据。


值得一提的是,云测数据的AI数据集管理系统还适配了多数的公开、开源数据集格式,这使得企业无论是从外部获得数据(这种情况十分普遍)还是自己花钱采集与标注得到的数据,都能得到统一的管理。


此外,数据的“可读性”也是衡量AI数据集管理系统能力的关键指标,在数据筛选出来后还能将数据还原,能有效帮助AI开发过程实现精细化(图:云测数据-AI数据集管理系统数据可视化界面):

image.png

一方面,这类可视化功能可以帮助AI开发工程师直接查看数据最开始的状况,更容易理解数据;另一方面,如果工程师有新的数据需求,也可以通过可视化的方式进行精确化的数据调校。


然后,是日常管理和使用的便捷性、安全性。


本质上,AI数据集管理是企业AI开发工作流程在信息化方面的一种体现,作为重要的工作对象和企业资产,企业层面的流程规范必须在AI数据集管理系统中得到遵守。


所以,可以看到,格物钛在系统中做到了数据的查看、编辑、使用和管理权限分离,来保障数据的访问安全;而云测数据则强调多团队协作与数据资产化管理同步进行,提供多团队数据使用权限分配、存储空间限定、使用日志记录等功能,企业可以根据实际需要灵活配置权限,这种做法能保证数据版本、工作协同的效率,且“数据失窃”、“删库跑路”等资产损失事件将最大程度规避。


再有,是对企业自主扩展的支持。


一般而言,AI数据集管理都是与企业AI开发全流程紧密融合的,企业往往要将这套系统进行扩展以更好地满足上下游业务需求,而由于不同行业、企业的情况各不相同,服务厂商不太可能提供一个能够支持所有企业都将AI数据集管理系统与企业上下游业务实际相融合的标品方案。


这时候,将系统做得很有扩展性,尽可能基础化、通用化,并支持企业自主开发扩展就变得很重要,可以看到,云测数据提供了有Python SDK、CLI和API等开发工具,让企业可以根据业务需要,持续集成数据输入、输出训练、数据迭代等业务场景。


最后,是部署成本的节约。


这是很多企业选择AI数据集管理系统的重要决策依据。


由于公有云、私有云的发展,这方面的逻辑已经变得比较简单,越是弹性化、包容性强的方案,越可能实现恰当的成本支出,典型如云测数据就十分强调其“灵活易扩展的混合存储支持”的特性,支持根据数据安全级别、使用频率、使用方式等对数据集分级管理,让企业可以“在安全和经济上灵活选择”。


总体而言,AI数据集管理系统需要照顾的企业需求已经固定,剩下的是入局的玩家如何根据自身优势各显神通、挖掘更深度的商业价值了。



结语


服贸会上,云测数据在推出其AI数据集管理系统时,特地强调了“采、标、管、存一站式服务”,回过头来看,这固然是个体厂商在强调自身的独特优势,但从行业角度而言,也某种程度上说明了AI数据集管理的最根本意义是让AI在最终落地前形成标准化的产业链条,所谓AI应用的“工业化大生产”能够从最初的“原料”到最后的“成品”实现全链条打通,而这,通常是一个行业走向成熟的重要标志。


一旦“产业链条”走向完善,AI训练数据将不只有在采集标注时精确度提升,其价值也将得到充分挖掘。总体来看,AI应用开发的质量、效率都将得到提升,而最终成本将会下降,所谓的“提质、增效、降本”三位一体的企业理想或也将最终得以实现。

相关实践学习
MySQL基础-学生管理系统数据库设计
本场景介绍如何使用DMS工具连接RDS,并使用DMS图形化工具创建数据库表。
相关文章
|
4天前
|
人工智能 自然语言处理 Java
【100%好礼】诚邀体验SoFlu-JavaAl开发助手,重塑AI编码价值
在这个数字化时代,软件开发任务繁重,飞算科技推出SoFlu-JavaAl开发助手,诚邀您体验AI编码新境界。它不仅生成代码,还通过自然语言理解需求,精准生成完整工程源码,大幅缩短设计工期,提升效率。SoFlu-JavaAl支持一键构建Java Maven工程,轻松合并老项目,快速响应需求变更。参与体验还有机会获多重好礼!
|
3天前
|
存储 人工智能 人机交互
PC Agent:开源 AI 电脑智能体,自动收集人机交互数据,模拟认知过程实现办公自动化
PC Agent 是上海交通大学与 GAIR 实验室联合推出的智能 AI 系统,能够模拟人类认知过程,自动化执行复杂的数字任务,如组织研究材料、起草报告等,展现了卓越的数据效率和实际应用潜力。
41 1
PC Agent:开源 AI 电脑智能体,自动收集人机交互数据,模拟认知过程实现办公自动化
|
20天前
|
存储 机器学习/深度学习 人工智能
【AI系统】完全分片数据并行 FSDP
本文深入探讨了AI框架中针对权重数据、优化器数据和梯度数据的分布式并行实现,特别是在PyTorch框架下的具体方案。文章首先回顾了通用数据并行和分布式数据并行的概念,重点讨论了同步与异步数据并行的差异。接着,文章详细介绍了如何在PyTorch中实现弹性数据并行,特别是完全分片数据并行(FSDP)的机制,包括其如何通过分片模型状态和剩余状态来减少内存消耗,提高训练效率。此外,文章还探讨了混合精度训练、损失缩放和内存消耗估算等关键技术,为理解和实施高效的分布式训练提供了全面的指导。
57 9
【AI系统】完全分片数据并行 FSDP
|
20天前
|
机器学习/深度学习 人工智能 PyTorch
【AI系统】数据并行
数据并行是一种在分布式AI系统中广泛应用的技术,通过将数据集划分成多个子集并在不同计算节点上并行处理,以提高计算效率和速度。在大规模机器学习和深度学习训练中,数据并行可以显著加快模型训练速度,减少训练时间,提升模型性能。每个计算节点接收完整的模型副本,但处理不同的数据子集,从而分摊计算任务,提高处理速度和效率。数据并行按同步方式可分为同步数据并行和异步数据并行,按实现方式包括数据并行、分布式数据并行、完全分片的数据并行等。其中,分布式数据并行(DDP)是当前应用最广泛的并行算法之一,通过高效的梯度聚合和参数同步机制,确保模型一致性,适用于大型NPU集群和AI系统。
86 7
【AI系统】数据并行
|
21天前
|
机器学习/深度学习 存储 人工智能
【AI系统】感知量化训练 QAT
本文介绍感知量化训练(QAT)流程,旨在减少神经网络从FP32量化至INT8时的精度损失。通过在模型中插入伪量化节点(FakeQuant)模拟量化误差,并在训练中最小化这些误差,使模型适应量化环境。文章还探讨了伪量化节点的作用、正向与反向传播处理、TensorRT中的QAT模型高效推理,以及QAT与PTQ的对比,提供了实践技巧,如从良好校准的PTQ模型开始、采用余弦退火学习率计划等。
70 2
【AI系统】感知量化训练 QAT
|
21天前
|
机器学习/深度学习 存储 人工智能
【AI系统】训练后量化与部署
本文详细介绍了训练后量化技术,涵盖动态和静态量化方法,旨在将模型权重和激活从浮点数转换为整数,以优化模型大小和推理速度。通过KL散度等校准方法和量化粒度控制,文章探讨了如何平衡模型精度与性能,同时提供了端侧量化推理部署的具体实现步骤和技术技巧。
43 1
【AI系统】训练后量化与部署
|
20天前
|
人工智能 PyTorch 测试技术
【AI系统】并行训练基本介绍
分布式训练通过将任务分配至多个节点,显著提升模型训练效率与精度。本文聚焦PyTorch2.0中的分布式训练技术,涵盖数据并行、模型并行及混合并行等策略,以及DDP、RPC等核心组件的应用,旨在帮助开发者针对不同场景选择最合适的训练方式,实现高效的大模型训练。
58 8
|
3天前
|
存储 机器学习/深度学习 人工智能
科技云报到:人工智能时代“三大件”:生成式AI、数据、云服务
科技云报到:人工智能时代“三大件”:生成式AI、数据、云服务
|
1月前
|
存储 人工智能 编译器
【AI系统】昇腾数据布局转换
华为昇腾NPU采用独特的NC1HWC0五维数据格式,旨在优化AI处理器的矩阵乘法运算和访存效率。此格式通过将C维度分割为C1份C0,适应达芬奇架构的高效计算需求,支持FP16和INT8数据类型。此外,昇腾还引入了NZ分形格式,进一步提升数据搬运和矩阵计算效率。AI编译器通过智能布局转换,确保在不同硬件上达到最优性能。
51 3
|
1月前
|
机器学习/深度学习 存储 人工智能
【AI系统】谷歌 TPU v2 训练芯片
2017年,谷歌推出TPU v2,专为神经网络训练设计,标志着从推理转向训练的重大转变。TPU v2引入多项创新,包括Vector Memory、Vector Unit、MXU及HBM内存,以应对训练中数据并行、计算复杂度高等挑战。其高效互联技术构建了TPU v2超级计算机,显著提升大规模模型训练的效率和性能。
45 0