还在纠结深度学习算法?计算机视觉CV的关键在于数据采集和标注!

简介:

科技云报道原创。

2012年,AlexNet网络横空出世,带来了前所未有的深度学习革命,这也让多年来进展缓慢的计算机视觉CV研究,一下被按下了“快进键”。

人们突然发现,这种模拟人脑抽象和迭代过程的深度学习算法,让计算机开始“看见”。从物体的边缘、轮廓到物体的部分,再向更高级层层抽象,深度学习让计算机终于能够在一张日常照片中,检测并识别出图上有一只猫,而不是一条狗。

6

这样的一小步,人类已经等待了二十多年。2016-2018年,深度学习成为计算机视觉CV研究的算法“标配”,人脸识别、图像识别、视频识别、物体跟踪、行人检测等CV技术得以进一步突破,并快速应用到安防、金融、汽车出行、泛娱乐等各个行业中。

如今,人们拿起手机刷脸支付、一键美颜、拍照识图,背后都有计算机视觉CV技术的身影。而在更广阔的行业市场,智慧城市、自动驾驶、智能家居、智慧医疗等多种场景都在渴望计算机视觉CV技术更进一步。

过去五年,计算机视觉CV领域一度成为国内创投圈的“宠儿”。仅2018年,该领域融资额就高达230亿。然而,这样的盛景并没有持续多久。

去年2月,计算机视觉奠基人Alan L. Yuille曾撰文表达他对当下计算机视觉CV技术发展的担忧。他认为,计算机视觉的发展面临瓶颈,深度学习在其中起到的作用有限,需要找到新的突破口。

从某种意义上来说,计算机视觉CV研究的确已经进入了瓶颈期。

4

计算机视觉CV困境:受限于AI数据的规模和质量

在近几年的发展中,图像分类、对象检测、目标跟踪、语义分割、实例分割等计算机视觉CV技术的核心任务,其精确度已经达到了产业落地的水平,但随之而来的,却是计算机视觉CV公司技术的同质化。

京东集团智能平台部投资主管徐博曾表示,在全球范围内,计算机视觉CV企业的技术都差不多,无论从中国还是美国发布的研究成果看,算法都是类似的。

业界关于计算机视觉CV技术已触及天花板的讨论越来越多,而源头则统一指向了深度学习算法。由于深度学习高度依赖大量的标注数据,如果计算机视觉CV的精确度想要再提高,如:对非常小和模糊的目标做检测,在复杂光照变化下保证分割结果稳定等,都需要分类更加细致、标注更加细化的数据去“教导”深度学习算法。

不仅如此,在工业界,数据规模更容易成为算法研发的关键因素。如果有更多的数据,就可以使用容量更大、更复杂的模型,得到效果更好的算法。当数据大到一定程度,数据和算法之间可以进行反复迭代,形成壁垒,为公司提供竞争力。

8

尴尬的是,在计算机视觉CV领域,可用数据的规模和质量,远远达不到进一步提升效果的需求。为了解决AI“数据荒”,业界尝试过多种办法,如:在少量数据基础上增加特征生成新数据;再或者,另辟蹊径去攻克半监督或无监督学习。

但是,种种“曲线救国”的办法,都解不了计算机视觉CV领域对高质量数据的“近渴”。落地到工业界,企业迫于市场竞争的压力,对计算机视觉CV的感知能力要求还在提升,业界对大规模、高质量AI数据的渴望空前强烈。

以人脸识别技术为例,云测数据总经理贾宇航表示,2015-2016年,人工智能对人脸数据训练的还相对粗放。但到了现在这个阶段,由于人工智能应用场景的多样性,对不同年龄、性别、肤色,不同的光线、角度的场景化要求越来越复杂,而且拍摄设备也随着手机、相机的不断进化,从单镜头到双镜头甚至增加了3D摄像设备,算法训练对数据的要求变得更加精细、丰富更加具有策略性。

场景化AI数据:量身定制的数据采集和标注

事实上,如今各大企业在AI产品上的竞争,本质上已经变成了AI数据之争。

在智能安防领域,产品可以分为监控、探测、防护等等,而视频监控则占据了其中大头部分。现有摄像头囊括了大量的行人、机动车、自行车等道路场景数据,而预警作为智能安防的重要作用之一,则需要识别诸如:老人摔倒、抢劫、打架、着火等稀有的小场景数据。显然,这种长尾场景的数据,需要在特定条件下的才能获取。

1

在人机交互领域,除了常规的语音、动作识别等,很多前沿研究希望通过情绪识别的方式,感知用户的心理状态,进而优化人机交互的体验。相对应的,人类在各种特定条件下的喜怒哀乐哭笑等精细的情绪数据,仍缺乏规模和质量。

在自动驾驶领域,由于涉及到驾驶安全,对场景化的数据要求更为精细。以图像识别为例,在佐治亚理工学院的一项研究中,通过对8个图像识别系统的测试,发现自动驾驶汽车的传感器和摄像头,更善于检测肤色较浅的人,而肤色较深被检测出的准确率平均会低5%。

但从技术角度来看,计算机视觉CV是通过RGB或RGBD识别人/物体的信息,其中黑色是最难被识别的。现实中,由于黑色及深色的数据稀少,导致算法模型不够精确,最终在实际落地应用时出现差错。

2

为了获得规模化、高质量的AI数据,工业界开始寻求一种更具专业化的数据获取方式,即通过定制的数据采集和标注,来获取特定的场景化数据。据云测数据总经理贾宇航介绍,现阶段AI数据有着三个大趋势:

第一,场景的多元化。基于产品落地场景,尽可能模拟各种各样的特定条件,如:光线强度、拍摄角度、噪声要求、室内室外等,以覆盖丰富多样的场景,甚至是长尾场景的数据需求;

第二,样本的多样性。以人的数据为例,人是一个非常多元化的物种,有不同的年龄、人种、性别、国籍等等,除此之外还涉及广泛的数据类型,包括图片、视频、音频、文本数据。如果想要发挥人工智能的普惠性,用AI产品服务好各种人群,就需要丰富多样化的样本。

第三,数据的多维化。随着技术和行业的发展,以智能驾驶领域数据需求为例,业界已逐渐从单摄像头过渡到多摄像头的方案。但是2D图像对于物体的测距仍有着很大的局限性,因此也出现了与激光雷达、超声波雷达等3D传感器的融合。通过多维度的采集硬件设备,帮助更多维度数据融合加速场景的落地。

目前,处于AI产品落地前夕或者处于重大迭代周期的企业,已经开始大力投入场景化数据用于算法的训练。以汽车行业为例,数据场景化定制主要集中在AI落地的两个方向:自动驾驶和车内智能驾驶仓。

在自动驾驶方向上,业界对行驶安全尤为关注,因此加大了对道路上长尾场景的覆盖,如:行人出现在马路中间、孩子突然在车前摔倒等,这决定了自动驾驶车辆能否及时识别出这些状况,并完成相应的控制决策。而在疫情期间,大街上出现了大量戴口罩的行人,这类场景也需要相对应的数据进行算法模型训练。

_1

而在车内智能驾驶仓方向上,企业比拼的是车内智能和互动的体验,如:通过手势识别、语音识别、情绪识别等AI技术,来关注车内驾驶员是否疲劳驾驶、车内是否会出现争吵等危险事件,以便做到及时识别和干预。

事实上,道路情况千变万化。云测数据通过自建的“场景实验室”的方式还原现实场景,帮助算法模型尽可能多地覆盖不同场景下的多维数据,从而提高自动驾驶车辆的安全性。而这样高质量的场景化数据,才得以帮助企业真正的商业化落地。

云测数据:场景化AI数据采标的引领者

如今,越来越多的行业在与人工智能技术结合。企业为了保持优势,打造持续的AI竞争力,开始与AI数据服务商紧密合作,以获得更高质量的场景AI数据来进行产品落地前的优化。

根据艾瑞《中国人工智能基础数据服务行业白皮书》显示,2018 年,数据资源定制服务已在基础数据服务市场占据86.2%的份额。各个行业的头部企业更是一马当先,都在为场景化AI数据“下血本”。

目前,众多AI巨头、车企巨头、大型金融机构、互联网企业以及传统企业等等,都与云测数据建立了良好的合作伙伴关系。

_2

一旦数据采集和标注变成专业化、高质量的服务,交付的数据就需要在数据的规模、质量、时效性上充分满足服务企业的需求,来助力AI产品达到商业化落地的标准,而这正是云测数据的优势所在。

据悉,云测数据作为国内数据采集和标注领域头部的服务商,在创立之初恰逢自动驾驶、智能音箱等AI应用趋势兴起,各大企业需要大量的计算机视觉CV数据以打磨自己的算法和AI能力,由此计算机视觉CV也成为云测数据至今深耕最久、经验最丰富的领域之一。

虽然与文本、语音等数据类型相比,计算机视觉CV数据的维度很多,可以说是数据品类最复杂的一个领域,但长期与行业众多企业的紧密合作,让云测数据持续保持着全品类CV数据采集和标注的优势。

为了提供更为专业的服务,云测数据自建数据基地和场景实验室的方式,打造出AI领域的数据“梦工厂”。

3

结合标准化的作业流程,并配以专业的标注工具和平台,云测数据在华东、华南、华北自建的数据标注基地和场景实验室,是高效率和高质量数据交付的强力保障。

其实对于数据标注,不同的人有不同的理解,例如:什么样的光线叫做强光线,在判断上有很强的主观性。为了保证企业客户和标注人员的理解达成一致,云测数据的项目经理保持着实时的沟通和反馈,并配合行业培训师对标注员们进行前期培训,以确保在标注时具有领域专业知识。在确立了数据标注标准后,标注员全程在线上标注系统里完成作业,并最终经过层层质检以保证数据标注的准确性。

__20200514102522

以自动驾驶为例,为了让机器“看见”复杂道路环境中的车道线、路标、障碍物、行人、十字路口,以及一些长尾场景如:闯红灯车辆、横穿马路的行人、路边违章停靠的车辆等,数据标注时需要采用图像分割、连续帧标注、2D图像框选、3D点云标注等多种标注方式。其中,云测数据自研的3D点云标注工具,能够保证整个标注过程流畅快捷,其效率比开源工具高5倍左右。

在人脸及人体关键点标注及追踪方面,云测数据能够通过领先的标注工具实现精细化的标注,如:对人脸进行26点、54点、96点、206点的人脸关键点标注;贴合度在3像素以内的特定任务关键点追踪;对人体骨骼关键点位置进行打点,特定位置可脑补并分配对应动作属性等。

对于企业客户最关注的数据安全和隐私,云测数据也有自己的原则和底线。首先,数据绝不复用,对于客户定制的数据需求,交付后全部清删。第二,在云测数据的标注基地设定了数据隔离、质量保障等一系列数据安全流程,确保数据不泄露,同时还提供私有化部署、标注人员驻场等服务。

不难发现,云测数据从数据采集、标注、审核、输出、安全等环节提供了一整套的解决方案,在保障AI场景化数据高质量生产的同时,也使得交付的数据等高效、高质、安心。

CV研究下的AI数据趋势:精细化、效率化、多模化

随着企业在AI功能性、拟人化、安全性方面的竞争进一步加剧,对应CV数据的要求也将越来越高。在云测数据总经理贾宇航看来,未来计算机视觉训练数据的发展需求会呈现三大趋势:

_3

一是,数据采集和标注的精细度会更高。从算法的学术研究到产业落地,对于标注内容的精细程度正在不断上升 。以人脸识别为例,从前期的90%到95%是一个档次,而当数据标注精度达到99%时,算法模型的完善,将会有质的提高;同时,针对物体属性分类,也从单层级向多层级进行演进 ;以及对应的训练数据的采集与标注,需要有更多相关操作能力和经验的专业人员来操作。

二是,在效率层面,未来随着更多产品落地,AI产品迭代时间将更加清晰明确 ,对应的数据标注时间、数据标注量都有明确的时间节点。因此,数据采集和标注的效率,将很大程度考验着数据服务商的专业度。

三是,多模态的数据采集和标注,会成为一种必然趋势。不同的样本、场景、设备构建的多维度数据的融合,将大幅度提升AI算法的能力。对于数据服务商而言,是否具备加速处理数据的能力,以及场景搭建、还原的能力,都决定了市场竞争的门槛。

在这样的趋势下,所有的AI数据服务商都面临不断升级的业务难度。如云测数据这类处于引领地位的数据服务商,往往会结合各行业最头部企业客户的需求,来布局自己的服务领域,对服务能力进行自我迭代升级,以确保该需求成为行业普遍需求时已经成为该领域的数据专家。对于后进者而言,缺少专业知识、技术和行业经验的日复一日的积累,这种竞争差距只会越拉越大。

创立了ImageNet数据集的斯坦福教授李飞飞曾在TED演讲中畅想:“当机器可以‘看到’时,医生和护士会获得一双额外的、不知疲倦的眼睛,帮他们诊断病情、照顾病人;汽车可以在道路上行驶得更智能、更安全。我们会发现新的物种、更好的材料,还可以在机器的帮助下探索从未见过的前沿地带。”

人类对于技术深度的追求和美好未来的畅想从不落幕。很多人或许认为计算机视觉CV技术已经遭遇了瓶颈,但同时,也有越来越多的企业意识到,想要打破计算机视觉CV技术的同质化,再一次实现机器感知能力的突破,获取高质量、精细化的场景化AI数据至关重要,而这也是各行业企业打造AI竞争力的关键所在。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

相关文章
|
7天前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
眼疾识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了4种常见的眼疾图像数据集(白内障、糖尿病性视网膜病变、青光眼和正常眼睛) 再使用通过搭建的算法模型对数据集进行训练得到一个识别精度较高的模型,然后保存为为本地h5格式文件。最后使用Django框架搭建了一个Web网页平台可视化操作界面,实现用户上传一张眼疾图片识别其名称。
23 4
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
|
29天前
|
机器学习/深度学习 人工智能 算法
猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法
宠物识别系统使用Python和TensorFlow搭建卷积神经网络,基于37种常见猫狗数据集训练高精度模型,并保存为h5格式。通过Django框架搭建Web平台,用户上传宠物图片即可识别其名称,提供便捷的宠物识别服务。
257 55
|
1月前
|
机器学习/深度学习 人工智能 算法
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
宠物识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了37种常见的猫狗宠物种类数据集【'阿比西尼亚猫(Abyssinian)', '孟加拉猫(Bengal)', '暹罗猫(Birman)', '孟买猫(Bombay)', '英国短毛猫(British Shorthair)', '埃及猫(Egyptian Mau)', '缅因猫(Maine Coon)', '波斯猫(Persian)', '布偶猫(Ragdoll)', '俄罗斯蓝猫(Russian Blue)', '暹罗猫(Siamese)', '斯芬克斯猫(Sphynx)', '美国斗牛犬
176 29
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
|
1月前
|
机器学习/深度学习 算法 信息无障碍
基于GoogleNet深度学习网络的手语识别算法matlab仿真
本项目展示了基于GoogleNet的深度学习手语识别算法,使用Matlab2022a实现。通过卷积神经网络(CNN)识别手语手势,如"How are you"、"I am fine"、"I love you"等。核心在于Inception模块,通过多尺度处理和1x1卷积减少计算量,提高效率。项目附带完整代码及操作视频。
|
1月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于深度学习网络的宝石类型识别算法matlab仿真
本项目利用GoogLeNet深度学习网络进行宝石类型识别,实验包括收集多类宝石图像数据集并按7:1:2比例划分。使用Matlab2022a实现算法,提供含中文注释的完整代码及操作视频。GoogLeNet通过其独特的Inception模块,结合数据增强、学习率调整和正则化等优化手段,有效提升了宝石识别的准确性和效率。
|
2月前
|
机器学习/深度学习 监控 算法
车辆违停检测:基于计算机视觉与深度学习的自动化解决方案
随着智能交通技术的发展,传统人工交通执法方式已难以满足现代城市需求,尤其是在违法停车监控与处罚方面。本文介绍了一种基于计算机视觉和深度学习的车辆违停检测系统,该系统能自动监测、识别并报警违法停车行为,大幅提高交通管理效率,降低人力成本。通过使用YOLO算法进行车辆检测,结合区域分析判断车辆是否处于禁停区,实现了从车辆识别到违停判定的全流程自动化。此系统不仅提升了交通管理的智能化水平,也为维护城市交通秩序提供了技术支持。
|
2月前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
垃圾识别分类系统。本系统采用Python作为主要编程语言,通过收集了5种常见的垃圾数据集('塑料', '玻璃', '纸张', '纸板', '金属'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对图像数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。然后使用Django搭建Web网页端可视化操作界面,实现用户在网页端上传一张垃圾图片识别其名称。
100 0
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
|
2月前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
116 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
2月前
|
机器学习/深度学习 人工智能 算法
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
蔬菜识别系统,本系统使用Python作为主要编程语言,通过收集了8种常见的蔬菜图像数据集('土豆', '大白菜', '大葱', '莲藕', '菠菜', '西红柿', '韭菜', '黄瓜'),然后基于TensorFlow搭建卷积神经网络算法模型,通过多轮迭代训练最后得到一个识别精度较高的模型文件。在使用Django开发web网页端操作界面,实现用户上传一张蔬菜图片识别其名称。
120 0
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
|
2月前
|
机器学习/深度学习 人工智能 TensorFlow
探索深度学习与计算机视觉的融合:构建高效图像识别系统
探索深度学习与计算机视觉的融合:构建高效图像识别系统
65 0