AI落地进入Hard模式!氪皮肤不如氪装备,拼算法不如拼高质量数据

简介: AI落地进入Hard模式!氪皮肤不如氪装备,拼算法不如拼高质量数据

大名鼎鼎的横店影视城有着这么一群人。他们每天穿梭于各大剧组,换上威武的武士服和漂亮的古装,在满满的通告中获取一份相对稳定的收入。有时运气好了可以讲一两句台词,和大明星合个影,也能自豪地给家里人讲自己风光的一面。

如果你看过尔冬升导演的《我是路人甲》,你可能对这帮“群演”的故事不会陌生。

随着《甄嬛传》《琅琊榜》和《庆余年》等热门剧集的影响,横店的势头也步步高升。然而,2015年随着“限古令”的公布,每年来横店的剧组数量从几十个锐减至十几个。

以前一天可以跑三四个通告,现在可能两天才能拿到一个。

通告的减少,不少“群演”收入锐减,甚至开始做起了快递分拣、送外卖的兼职工作。而这其中,有这样一批“演员”,还能幸运的靠演技谋得一份生路。虽然这次,雇主不再是影视公司,而是和人工智能密切相关的AI数据企业。

被作为“自动驾驶”数据采集的这批群演们自称“车模”,在通过“数据测试”后,他们会被叫到几辆汽车前,进入规定车辆的驾驶位上做出转头、摇头和拿水杯等动作。半小时的采集工作,可以给他们相当于片场“半个工”(半个工作日)的薪水。

这些群演们可能自己都意识不到,自己在做的事情正在为这个智能时代产生巨大的价值。

人工智能时代,数据是和算法、算力一样必不可少的生产力。我们无时无刻都在产生数据,但“数量庞大”这一标准已远不能满足这个时代的需要。

就如纯度高的黄金需要杂质少的原材料,像上面这样找专业人士获取特定的、高质量的AI数据的需求,已经成为一种常态。

AI数据的生产模式已经从小作坊,转向更专业的生产机构。入局这一赛道的,除了BAT、京东等需要满足自身数据需求的大厂,也有越来越多专业化的超高质量数据服务平台。

那么,各大人工智能厂商不惜重金、趋之若鹜的AI数据,为什么这么重要呢?

“更高更快更强”:助推算法精准度,高质量数据必不可少

如果把人工智能研究比作一场奥运比赛,那么提高深度学习模型的契合度、努力刷新前人的记录,是研究者们追求的共同目标。对深度学习来说,算法提供了整体的框架,算力提供着训练的动能,而没有高质量数据,再怎么萃取也不会有高质量的精华。

行业中,开发人员会戏称训练深度学习模型的过程为“炼丹”。想要炼出太上老君的仙丹,光有一口好炉子(算法)和充足的火力(算力)还远远不够,纯度高的原材料(数据)万万不可或缺。而越是好炉子,对原材料的精细度越是挑剔。

近年来,大数据的井喷逐渐推动着算法和算力的发展。有了过硬的算法和算力,相较于数量上的竞赛,各大公司争先恐后地想搞出些“真刀真枪”来进行比拼。在这样的背景下,为了提升AI的准确性,向产品落地的方向更进一步,企业们已把眼光从之前对数据“数量”的要求转向对“质量”的要求。

作为AI数据服务行业内头部代表企业,云测数据总经理贾宇航用简单的实例为我们解释了自动驾驶场景下精准数据的重要性,“公司对数据精度的高要求,是由于很多算法落地的过程之中,AI需要达到这样的精度,才能够去做到一个相应的运转。“

“拿自动驾驶为例,如果你的训练数据中的车都是白车,实际情况中突然出现红车,基于训练数据总结出的规律,可能AI就不认为这是一辆汽车。”

在开头描述的横店群演们的“车模”新工作,就是云测数据为自动驾驶客户提供的基于真实场景的数据采集服务。

复杂的场景中,高质量数据拒绝AI的“错误”行为

人工智能正在进入更加复杂的应用领域,除了对数据精准度的要求,现实场景的复杂度也成为人工智能落地前的痛点,两者结合对AI数据提出了更高的要求。云测数据所提供的服务正是解决了当下数据需求痛点。

微软的沈向洋博士曾经在清华的就职演讲中,用这样一个案例讲述了在识别领域,高质量AI数据的重要性。

在一个认出“哈士奇狗”的训练任务中,AI在六张中鉴别对了其中五张,但进一步观察判断的依据,AI其实是在用“中有没有雪”这一特征进行判断。很显然,由这样的数据训练出来的AI不是一个“哈士奇分类器”,而变成了一个“场景分类器”。

AI之所以会在这里出现“错误”,是因为算法会让它在训练过程中,确保大部分训练数据的准确率够高。大部分训练数据的准确率高了,整体的准确率就有保证。想要做到这一点,提取这大部分数据中共有的关键特征,再根据数据中有无这些特征进行判断就可以了。在上面鉴别哈士奇的例子中,中“有没有雪”就是这一关键特征,而高质量(准确)的数据在这里就显得十分重要。

采访中,云测数据也向我们指出了复杂的场景带来的挑战。“近年来,因为使用的场景非常复杂,AI公司对数据的数据标注的精度和场景多样性的要求越来越高。某些人工智能应用可能换一种情景就行不通,比如语音识别,可能在普通话的情况识别率很高,但换了方言就行不通。所以说,当你训练数据的覆盖场景越多、数据标注的的精准度越高,实际上AI总结出来的规律也就越正确。”贾宇航说道。

为了保证AI总结出正确的规律,训练数据的多样性是一个关键。春夏秋冬的哈士奇,全身半身的哈士奇,只露一个耳朵的哈士奇,丰富的数据是避免AI错误的一剂良药。

贾宇航介绍道:“举个例子说,想要做一个全球适用的人脸识别系统,黑、白、黄,各肤色的数据是必不可少的,甚至在每种肤色下面还要细分种类。同时各个年龄层面也都要考虑。“

通过这样丰富的数据,或者说,高质量的数据,我们训练出来的AI就会更有可信度,落地的产品也才会更加可靠。

以一敌百万:随机数据让算法更聪明!

刚刚提到的方言识别是语音助手面对的挑战之一,除此之外,外部噪音对人声的影响也是语音识别行业一个亟待解决的问题。

借用吴恩达深度学习课程中的例子,训练车内的语音AI时,我们需要人们在「车内讲话」的音源。这是因为由于行驶时的噪音的存在,我们在车中讲话的声音和平常是不同的。

为了提升模型识别的精准度,我们需要为算法搜集定制化的车内噪声数据。传统的实验室做法是这样的:为了制作出车中的人声,将一段搜索到的白噪音与一万条人声数据分别拼接。看上去我们获得了一万条车中人声的数据,但通过这样的操作得出的模型,在现实场景中往往很快“扑街”。

为什么呢?这里就涉及到了数据搜集的“随机性”问题。

我们对数据多样性的要求,其实和统计学中随机性这一概念息息相关。想要涵盖各年龄层,各方言层的数据,其实是给样本注入随机性——为了让样本更能代表整体。刚刚提到的合成人声,数据量看起来很多,但实际情况的车内人声变化多端,我们合成的一万条数据看似很多,但很可能并不具有现实代表性。

大家都知道随机性很好,但它究竟好到什么程度?让我们回到统计学的基本概念中来看看。

假设我们想要估计全国人民使用某电商品牌的比例,称这个数字为p。我们可以使用互联网上现成的观测性大数据(observational data)。但在这个数据集中,一个人被抽到的概率和这个人使用电商的概率是相关的(称这个相关性为r,r越小数据越随机)。

比较之下,我们还可以采取简单随机抽样(SRS, simple random sample),避免相关性的问题。

假设我们在简单随机抽样中抽取了n个样本,而使用的观测性大数据中包含的全国人口比例为f。我们用常用的MSE(Mean Squared Error,平均误差)来衡量误差,在这两种情况下,MSE分别是:

上面的公式说明了什么?

如果我们乐观地假设r=0.1,那么100个随机样本产生的误差和一半人口(f=0.5, 7000万人)的观测数据产生的误差一样多。

如果我们有能力采集10000个随机样本(中国人口的十万分之七),则它和涵盖99%的中国人口(1.386亿)的观测数据会产生一样大的误差!

但在行业落地中,获取更符合现实分布的随机数据并不是一件容易的事情。

贾宇航告诉我们,“声纹识别上,我们需要考虑到方言的语系语种,以及性别层面和年龄层面。“

就拿方言数据来说,云测数据在华东、华南、华北都设有自己的实验室,从地理位置上保证八大方言体系的数据都有被涵盖。而在收集之前,云测数据还会进行认证和把关,确保录入人员讲的方言符合标准。

有些公司需要底噪比较高的环境,比如之前提到的车内语音,云测数据也会使用相应的设备去调制这样的场景,确保数据的采集达到标准。

贾宇航还给我们介绍道,也有一些对夸张表情进行情绪识别的数据需求。比如在自动驾驶中,夸张的表情很可能表示驾驶员遇到了紧急情况。这些是并不常见但对于提升AI的安全性至关重要的数据。换句话说,是使自动驾驶安全落地的一个关键突破口。

为了收集这样的表情数据,云测数据想到的是在演艺界打开渠道,而开篇提到的横店影视城群演就自然成为了高质量的资源。在表情数据收集的过程中,云测数据和专业人士合作,采取了人员筛选、情绪引导、数据采集的三步法。类似于演员的面试,项目负责人先筛选出表演能力强的演员,再对筛选下来的人员进行情绪引导,最后采集表情数据,来确保在数据采集初期的高质量获取,以达到客户需要的水平。

除了对人的要求,数据采集的场景化还包括对光源的具体模拟。云测数据告诉我们,场景化的模拟包括不同光照条件、不同光照角度下以及遮挡物(如玻璃)等细节要求。某个项目中单是光源条件就分成了室内和室外,强光、逆光、倒光等一共24种光照条件,不仅如此,玻璃反光度、模特脸部遮挡比例值等都有严格的要求。在这个项目中,玻璃的反光程度不仅与玻璃的材质厚度有关,也跟光源大小、光源与玻璃之间的角度和距离等一系列变量有关。云测数据最终搭建了一个将近3000平米的场景圆满完成了此次项目。

数据智能的未来:专业数据服务机构和人工智能携手共进

人工智能的产品正如雨后春笋一样不断冒出,但AI系统的质量仍然制约着一些应用的落地。即使系统已经落地,人们对于精细度的打磨也在产生新的要求。

“我们希望和客户一起成长,更加深化合作方向。”

贾宇航对于数据行业和人工智能间关系如此展望,”比如说语音助手原来只是做到对语句的识别,但随着时代的发展,人们对于精细度的进一步要求,我们同时也要做到情绪上的识别。同一句话在用不同的语气讲的时候,我们希望语音助手也可以用相对应的语气来回应,而不是像现在这样,每一句话都是一个语调。大家肯定希望压力大的时候,语音助手可以用温柔的语气送上问候。我们希望语音助手也可以更加拟人化,在这个层面上我们会去进一步地深耕,利用场景的定制和设备的专业性进行数据服务方案的进一步调优。”

为了进一步满足AI行业的需求,云测数据也在数据标注的环节不断拓展。以NLP为例,对一个语句的“主/谓/宾“或是”时间/地点/人物”式的划分早已不能满足应用场景的细化要求。用人为的标签给平淡的语句加入适当的背景含义,算法才能更加适应场景。

想要达到高标准的标注水平,需要对员工的专业培训,甚至在某些领域,比如医疗图像识别,AI数据标注必须由领域的专家来完成。在不同的领域,建立起AI数据生产的标准流程,是数据行业当下将要面临的机遇和挑战。

对于AI行业当下发展非常敏感的数据隐私问题,云测数据也给出了自己的解决方案:“让拥有数据成为企业的核心竞争壁垒”,通过数据隔离、质量保障等一系列保护数据安全的方法,确保企业数据安全的情况下,持续为数据采集和标注构建和优化自己的方案。

另一方面,贾宇航也希望云测数据可以和更多的行业进行深度合作。“除了现在的智能驾驶、智能家居、智能安防、智慧金融、新零售等领域,我们也在往更多的行业去拓展。比如说文娱和教育,实际上我们现在都有涉及,并和这些行业一起进步。我们希望把我们的AI数据服务带到新的领域,在新的领域解决新的挑战,帮助更多的企业实现产品智能化。”

相关文章
|
25天前
|
传感器 人工智能 监控
智慧工地 AI 算法方案
智慧工地AI算法方案通过集成多种AI算法,实现对工地现场的全方位安全监控、精准质量检测和智能进度管理。该方案涵盖平台层、展现层与应用层、基础层,利用AI技术提升工地管理的效率和安全性,减少人工巡检成本,提高施工质量和进度管理的准确性。方案具备算法精准高效、系统集成度高、可扩展性强和成本效益显著等优势,适用于人员安全管理、施工质量监控和施工进度管理等多个场景。
|
10天前
|
机器学习/深度学习 缓存 人工智能
【AI系统】QNNPack 算法
QNNPACK是Marat Dukhan开发的量化神经网络计算加速库,专为移动端优化,性能卓越。本文介绍QNNPACK的实现,包括间接卷积算法、内存重排和间接缓冲区等关键技术,有效解决了传统Im2Col+GEMM方法存在的空间消耗大、缓存效率低等问题,显著提升了量化神经网络的计算效率。
24 6
【AI系统】QNNPack 算法
|
10天前
|
存储 人工智能 缓存
【AI系统】Im2Col 算法
Caffe 作为早期的 AI 框架,采用 Im2Col 方法优化卷积计算。Im2Col 将卷积操作转换为矩阵乘法,通过将输入数据重排为连续内存中的矩阵,减少内存访问次数,提高计算效率。该方法首先将输入图像转换为矩阵,然后利用 GEMM 库加速计算,最后将结果转换回原格式。这种方式显著提升了卷积计算的速度,尤其适用于通道数较多的卷积层。
23 5
【AI系统】Im2Col 算法
|
10天前
|
存储 机器学习/深度学习 人工智能
【AI系统】微分计算模式
本文深入探讨了自动微分技术,这是AI框架中的核心功能。自动微分分为前向微分和后向微分两种模式,主要通过雅克比矩阵实现。前向模式适用于输出维度大于输入的情况,而后向模式则更适合多参数场景,广泛应用于现代AI框架中。文章还详细解释了这两种模式的工作原理、优缺点及应用场景。
26 2
【AI系统】微分计算模式
|
10天前
|
存储 机器学习/深度学习 人工智能
【AI系统】Winograd 算法
本文详细介绍Winograd优化算法,该算法通过增加加法操作来减少乘法操作,从而加速卷积计算。文章首先回顾Im2Col技术和空间组合优化,然后深入讲解Winograd算法原理及其在一维和二维卷积中的应用,最后讨论算法的局限性和实现步骤。Winograd算法在特定卷积参数下表现优异,但其应用范围受限。
21 2
【AI系统】Winograd 算法
|
27天前
|
人工智能 搜索推荐 API
Perplexica:开源 AI 搜索引擎,Perplexity AI 的开源替代品,支持多种搜索模式、实时信息更新
Perplexica 是一款开源的 AI 驱动搜索引擎,支持多种搜索模式和实时信息更新,适用于个人、学术和企业等不同场景。
130 6
Perplexica:开源 AI 搜索引擎,Perplexity AI 的开源替代品,支持多种搜索模式、实时信息更新
|
26天前
|
机器学习/深度学习 传感器 人工智能
智慧无人机AI算法方案
智慧无人机AI算法方案通过集成先进的AI技术和多传感器融合,实现了无人机的自主飞行、智能避障、高效数据处理及多机协同作业,显著提升了无人机在复杂环境下的作业能力和安全性。该方案广泛应用于航拍测绘、巡检监测、应急救援和物流配送等领域,能够有效降低人工成本,提高任务执行效率和数据处理速度。
智慧无人机AI算法方案
|
14天前
|
存储 人工智能 缓存
【AI系统】布局转换原理与算法
数据布局转换技术通过优化内存中数据的排布,提升程序执行效率,特别是对于缓存性能的影响显著。本文介绍了数据在内存中的排布方式,包括内存对齐、大小端存储等概念,并详细探讨了张量数据在内存中的排布,如行优先与列优先排布,以及在深度学习中常见的NCHW与NHWC两种数据布局方式。这些布局方式的选择直接影响到程序的性能,尤其是在GPU和CPU上的表现。此外,还讨论了连续与非连续张量的概念及其对性能的影响。
36 3
|
16天前
|
人工智能 并行计算 调度
【AI系统】CUDA 编程模式
本文介绍了英伟达GPU的CUDA编程模型及其SIMT执行模式,对比了SIMD和SIMT的特点,阐述了SIMT如何提高并行计算效率和编程灵活性。同时简要提及了AMD的GPU架构及编程模型,包括最新的MI300X和ROCm平台。
47 5
|
14天前
|
机器学习/深度学习 人工智能 算法
【AI系统】内存分配算法
本文探讨了AI编译器前端优化中的内存分配问题,涵盖模型与硬件内存的发展、内存划分及其优化算法。文章首先分析了神经网络模型对NPU内存需求的增长趋势,随后详细介绍了静态与动态内存的概念及其实现方式,最后重点讨论了几种节省内存的算法,如空间换内存、计算换内存、模型压缩和内存复用等,旨在提高内存使用效率,减少碎片化,提升模型训练和推理的性能。
32 1