AI算法工程师像普通用户在搜索引擎上搜索信息一样,将数据标注结果的标签(例如,车辆、树木)输入到互动窗口,所有与之有关的AI数据“元信息”就被筛选出来,随后,工程师用新的方式将这些数据重新“打包”构建起一个新的场景库,导入到AI模型的训练过程当中,一次针对特定场景的迭代训练就这样开始了。
如果工程师需要,还可以根据最初采集数据的传感器,或诸多其他区分数据的属性来精确定位数据。
这是某自动驾驶AI开发企业里的一次专注于特定场景AI模型训练的工作日常,看起来再正常不过,而在这之前,这家企业长期面临在庞大冗杂的训练数据库里难以筛选有价值数据进行特定场景模型训练的尴尬问题,“守着金山挖不动”。
问题的解决,是从采用了专门针对“AI数据集”的管理系统开始的——这个AI企业工作切面的背后,反映的是AI“产业链条”上值得关注的变化。
AI场景化落地正随着数字经济的全面渗透而进入提速阶段,算法、算力和数据共同构成技术发展的三大核心要素,打通这三大环节才能让一个个AI应用真正落地到具体场景里产生价值。由此,在走向最终的产业应用之前,“生产”AI应用的“产业链条”上也蕴含了无数的商业机会。
但是,在数据层面,过去多数人最关心的只有喂养AI模型的“量”够不够用、数据的“质”够不够精准,而现在,数据这个AI“产业链条”的重要环节还在进一步细化,专业的AI数据集管理——Al数据集的上传、管理、存储、分享,正展示出推动高质量AI应用落地的价值,例如不久前的2021服贸会上,原本以高质量AI训练数据服务见长于业内的云测数据,就在其云测数据标注平台基础上发布了AI数据集管理系统,要为企业提供专业的AI数据集管理服务。
而这个赛道上不只有云测数据,多种主体参与的产业现象正在这里形成,也带来当下人工智能领域重要的创新机遇。
按下葫芦浮起瓢,
AI数据集管理挑战显现
诚然,随着算法模型、技术理论和应用场景的不断突破,加之“新基建”浪潮下算力基础设施的快速建设,AI产业对数据“量”的需求在不断增长,数据量“短缺”一度成为AI产业链条上的瓶颈问题。
但是,这可能并不会持续很长时间,嗅到机会的科技巨头、创新企业前些年在数据采集与标注上广泛布局,推动合格数据的“量”快速增长,这也使得数据标注行业作为AI上游基础产业在短短数年间实现了爆发式发展。
有数据显示,2019年、2020年,数据标注行业市场规模为30.9亿元、36亿元左右,年均复合增长率20%左右,预计到2025年,国内数据标注市场规模将突破100亿元大关。
这背后,根据AI数据标注猿统计数据,2020年4月,国内数据标注业务相关公司数量为565家,2020年12月,数量增长至705家,2020年4月份到12月份的相关数据标注需求公司增量为24.78%,约20万全职从业者与约100万兼职从业者,正在让AI产业走出数据荒。
当然,AI数据也不仅仅来源于数据标注,互联网科技的快速发展也在助推中国数据“供给量”的总体提升,在IDC的报告中,中国的数据量增速比全球快3%,预计到2025年将增至48.6ZB,占全球总量的27.8%,年复合增长率达30.35%。
但是,量的问题一定程度上解决后,新的问题又冒了出来——如何更高效地利用数据,发挥数据的价值。其重要背景,是AI应用的开发方式发生了从项目制到敏捷开发的重要转变:
过去AI模型训练以一个个项目为主,做完项目、得出一个预期质量的AI模型后,使用过的数据便被“丢弃”;而现在,企业倾向于持续把过去已有的数据利用起来,逐步形成属于企业的数据池子,将数据在多个相关模型开发中进行重复利用。
这就导致单个企业所积累的数据量越来越多,而众所周知数据量的增长又以非结构化数据为主,企业所面临的AI数据集管理的挑战越来越明显,例如,数据量太大,针对特殊的场景缺乏精准的方式去找到有价值的数据;原本数据管理凌乱,本地服务器存一点、云端有一点,版本更新不同步,甚至出现一个Excel表格管理数据的现象;数据随意拷贝、传输,存在重大的资产损失风险等等。
显而易见,这时候,能够帮助企业管理好AI数据,就成了重要的创新机遇。
到目前为止,有三类不同背景的玩家在加入赛道:
一是原本就向企业提供数据采集与标注服务的厂商,例如开篇提到的云测数据,这类企业入局,是AI“产业链条”自然延伸的结果。
从行业地位看,在《互联网周刊》&eNet研究院、德本咨询联合发布的《2021数据标注公司排行》中,云测数据凭借最高99.99%精准度数据标注能力和场景化训练数据方案等,再次排在“数据标注公司排行”榜首位置,其云测数据标注平台4.0能够实现AI数据训练综合效率提升200%。
但是,越是如此,云测数据这样的平台就越绕不过企业AI数据管理的问题——如果只是提供数据、帮助训练效率提升,而不推动企业“搞定”数据管理,随着企业面临数据管理的挑战,其商业模式越往下走就越会越到障碍,这时候,就只能在已有的技术和服务经验积累的基础之上拓展AI产业链条细化环节,推出专门的针对AI数据集管理的技术系统——也顺势成为国内首个该领域的系统。
可以说,云测数据推出AI数据集管理系统,既是基于人工智能行业前瞻性发展的具象化技术产品体现,为企业寻找新的发展空间,也是AI产业链条闭环的一种倒逼。
其优势在于,作为原来的AI训练数据服务商,借助AI数据集管理系统,可以以“全生命周期关注”的姿态走进需求企业,推动企业从最开始的数据获取到最终的产业落地全周期效率提升,帮助客户企业整体化思考,也契合AI发展告别项目制走向敏捷开发的趋势。而作为原本AI训练数据服务领域的领导者,云测数据的智能驾驶、智慧城市、智能家居、智慧金融、新零售等众多垂直领域的数据服务技术与经验可以很好地横移到AI数据集管理当中,在数据检索、数据呈现、数据安全保障等方面有垂直化的经验壁垒。
二是互联网、科技领域的大厂,它们都具备云计算方面的数据管理基础禀赋,其入局,是从数据管理大赛道延展到AI数据集管理小赛道的客观结果。
较为典型的是IBM,面向中国市场提供混合数据管理系统,“利用数据管理驱动AI”是官方宣称的重要价值之一,例如其IBM Cloud Pak for Data,产品功能是帮助企业收集、组织和分析数据,“以实现有影响力的AI”,而其实现主要包括在容器化的环境中运行IBM Db2 Warehouse等——不需要知道这是什么,只要知道这些原本就用于云计算数据管理即可。
其他如从事数据标注的百度、阿里等,其云计算中都或多或少包含AI数据集管理的能力,只不过并非专门的系统,这类企业的优势在于,原本的数据管理往往会积累一定的基础客户量,在品牌上也有大厂背书。
三是“白手起家”,直接切入赛道的创新企业,这类企业以寻找商业机会为直接目标。
例如来自上海的格物钛,主要提供面向机器学习的数据管理 SaaS 产品,支持企业进行海量数据托管,宣称要提供“人工智能基础设施”,该企业目前得到了红杉、云启、真格以及风和资本的千万美金Pre-A轮融资,这从侧面反映了AI数据集管理的价值潜力。
这类企业的优势在于轻装上阵,在资本的青睐和支撑下似乎可以把产品做得更精细化,当然,它们的出现,也意味着后续将有更多过去与AI数据集没有“渊源”的创新企业加入,这个赛道会越来越热闹。
标准化的四个维度,
AI数据集管理挖掘AI产业链细化环节的创新价值
从具体做法来看,不管什么来路,做AI数据集管理,无非都包括标准化的四个维度,只不过实现方式各不相同。
首先,是便捷的数据检索和利用。
量大且非标准化,池子还在不断扩大,于是方便的检索和利用就成为AI数据集管理的核心任务。
这方面,IBM使用了开放式平台上的自动容器化功能,通过架构优势来让数据收集和管理变得更加简单智能,易于访问;而云测数据等企业都采用的是清晰化的标签与属性体系让工程师可以快速找到想要的数据。
值得一提的是,云测数据的AI数据集管理系统还适配了多数的公开、开源数据集格式,这使得企业无论是从外部获得数据(这种情况十分普遍)还是自己花钱采集与标注得到的数据,都能得到统一的管理。
此外,数据的“可读性”也是衡量AI数据集管理系统能力的关键指标,在数据筛选出来后还能将数据还原,能有效帮助AI开发过程实现精细化(图:云测数据-AI数据集管理系统数据可视化界面):
一方面,这类可视化功能可以帮助AI开发工程师直接查看数据最开始的状况,更容易理解数据;另一方面,如果工程师有新的数据需求,也可以通过可视化的方式进行精确化的数据调校。
然后,是日常管理和使用的便捷性、安全性。
本质上,AI数据集管理是企业AI开发工作流程在信息化方面的一种体现,作为重要的工作对象和企业资产,企业层面的流程规范必须在AI数据集管理系统中得到遵守。
所以,可以看到,格物钛在系统中做到了数据的查看、编辑、使用和管理权限分离,来保障数据的访问安全;而云测数据则强调多团队协作与数据资产化管理同步进行,提供多团队数据使用权限分配、存储空间限定、使用日志记录等功能,企业可以根据实际需要灵活配置权限,这种做法能保证数据版本、工作协同的效率,且“数据失窃”、“删库跑路”等资产损失事件将最大程度规避。
再有,是对企业自主扩展的支持。
一般而言,AI数据集管理都是与企业AI开发全流程紧密融合的,企业往往要将这套系统进行扩展以更好地满足上下游业务需求,而由于不同行业、企业的情况各不相同,服务厂商不太可能提供一个能够支持所有企业都将AI数据集管理系统与企业上下游业务实际相融合的标品方案。
这时候,将系统做得很有扩展性,尽可能基础化、通用化,并支持企业自主开发扩展就变得很重要,可以看到,云测数据提供了有Python SDK、CLI和API等开发工具,让企业可以根据业务需要,持续集成数据输入、输出训练、数据迭代等业务场景。
最后,是部署成本的节约。
这是很多企业选择AI数据集管理系统的重要决策依据。
由于公有云、私有云的发展,这方面的逻辑已经变得比较简单,越是弹性化、包容性强的方案,越可能实现恰当的成本支出,典型如云测数据就十分强调其“灵活易扩展的混合存储支持”的特性,支持根据数据安全级别、使用频率、使用方式等对数据集分级管理,让企业可以“在安全和经济上灵活选择”。
总体而言,AI数据集管理系统需要照顾的企业需求已经固定,剩下的是入局的玩家如何根据自身优势各显神通、挖掘更深度的商业价值了。
结语
服贸会上,云测数据在推出其AI数据集管理系统时,特地强调了“采、标、管、存一站式服务”,回过头来看,这固然是个体厂商在强调自身的独特优势,但从行业角度而言,也某种程度上说明了AI数据集管理的最根本意义是让AI在最终落地前形成标准化的产业链条,所谓AI应用的“工业化大生产”能够从最初的“原料”到最后的“成品”实现全链条打通,而这,通常是一个行业走向成熟的重要标志。
一旦“产业链条”走向完善,AI训练数据将不只有在采集标注时精确度提升,其价值也将得到充分挖掘。总体来看,AI应用开发的质量、效率都将得到提升,而最终成本将会下降,所谓的“提质、增效、降本”三位一体的企业理想或也将最终得以实现。