【新智元专访】 阿里巴巴“NASA计划”新进展:刷新视觉计算世界纪录

简介:

5月18日,机器视觉算法测评平台KITTI的世界纪录再次被刷新——阿里云将其车辆检测的准确率拉升至90.46%。车辆检测被认为是实现无人驾驶的关键技术,极具挑战。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

该成果公布后,新智元第一时间采访到了华先胜,解读他们所提出的基于区域融合决策和上下文相关的多任务深度神经网络。另外,就准确率上的疑惑、GAN思想的应用等问题,华先胜也与新智元进行了分享。


在这次比赛中,他们提出了基于区域融合决策和上下文相关的多任务深度神经网络,用于复杂场景下的车辆检测任务,重点解决其中多视角,多姿态以及车辆遮挡等问题。


华先胜对新智元表示,他们所设计的网络结构融合了目标的空间信息、自身属性信息、上下文信息以及局部相关性等多种信息,最终构建了一个多任务深度神经网络结构。另外以区域(region)为单位还设计了融合决策机制,进一步优化每个目标的检测结果。他们所提出的方法,对中小目标、高遮挡目标的检测效果有着十分明显的提升效果。


在网络结构设计上,团队利用反卷积操作提高了小目标的召回率,同时拼接了多层特征以融合低层的局部信息和高层的语义信息,提高了边框定位的准确率。


他们也提到,在训练过程中,还借鉴了GAN(生成对抗网络)中的对抗训练模式。华先胜对新智元说:“我们在设计检测网络的过程中,借鉴了GAN的对抗特性,提升了模型对于遮挡、形变、光照和噪声的鲁棒性。该思想的引入,对于高难度目标的检测有很大的帮助。”


被问到KITTI 上的结果,阿里云的准确度为90.46%,第二名为90.43%,第10名也有90.04%各种算法之间,准确率上这样的差距算大吗? 


华先胜对新智元说,随着指标的不断上升,在准确率上的任何一点提升都是需要付出很多的努力,需要对算法进行不断优化。例如曾经被大家刷爆的LFW,大家的提升都在小数点后面几位。越到后面,难以解决的多是很难的样本,然提升看起来不大,但却能解决其中很困难的样本,而真实场景中往往困难样本的比例会更高,所以这些提升仍然是很有意义的。


华先胜表示,“现在我们已经将这样的技术集成到阿里云ET当中,并在城市大脑中得以应用。它能够帮助城市大脑准确的看懂车流信息,快速的做出全局性判断”。华先胜是视觉识别和搜索领域的国际级权威学者,曾获选国际电气与电子工程协会院士(IEEE Fellow)、美国计算机协会ACM杰出科学家。


城市大脑是包括阿里云在内的13家企业联合杭州市政府发起的项目,旨在构建一个城市级的人工智能中枢,让城市能够与人类友好互动。这其中分析视频是城市大脑获取信息的关键。


他在接受新智元的采访时说,城市大脑中的视觉技术很多也是通用的技术,也能用到其他的场合。不论是城市大脑还是无人驾驶,精准的目标检测技术都在其中起着十分重要的作用,而我们团队关注技术本身,旨在打造世界领先的视觉算法,以支持多种视觉相关的应用。


另外,提到即将在7月份召开的计算机视觉领域国际顶级会议CVPR,华先胜表示,团队的研究内容包括:视频分析、事件检测、人脸识别、医疗图像识别、智能设计,以及大规模视觉搜索等方面。部分研究成果也将逐步在学术界公开,本次CVPR会介绍一些他们在城市和电商等多个场景下的目标Re-ID和大规模搜索的一些最近技术进展和实践。

 

在视觉计算领域的持续攻坚,是阿里巴巴“NASA”计划的一部分。该计划聚焦于机器学习、芯片、IoT、操作系统、生物识别等核心领域,他们希望能解决10年、20年后的困难。此前,已在光量子计算机、全浸没液冷服务器等方面取得重大进展。


KITTI是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集,可以用于评测目标检测等计算机视觉技术在复杂真实环境下的性能。KITTI包含市区、乡村和高速公路等场景采集的真实图像数据,有大量的微小目标、欠曝和过曝、多种视角变化以及各种遮挡情况。


文章转自新智元公众号,原文链接

相关文章
|
10月前
|
机器学习/深度学习 人工智能 自动驾驶
全日程公布!你关心的大模型时代AI热点,我们请了多位AI大咖在这场WAIC论坛解答
全日程公布!你关心的大模型时代AI热点,我们请了多位AI大咖在这场WAIC论坛解答
125 0
|
12月前
|
存储 人工智能 编解码
CVPR‘2023 | 港科大 & 腾讯 AI Lab & 港大联合出品:有趣的动态 3D 场景重建
CVPR‘2023 | 港科大 & 腾讯 AI Lab & 港大联合出品:有趣的动态 3D 场景重建
181 0
|
机器学习/深度学习 传感器 人工智能
5年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药
5年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药
149 0
AI:2020年6月22日北京智源大会演讲分享之机器感知专题论坛—14:10-14:50王亮教授《面向复杂视觉任务的视觉认知计算》
AI:2020年6月22日北京智源大会演讲分享之机器感知专题论坛—14:10-14:50王亮教授《面向复杂视觉任务的视觉认知计算》
AI:2020年6月22日北京智源大会演讲分享之机器感知专题论坛—14:10-14:50王亮教授《面向复杂视觉任务的视觉认知计算》
|
机器学习/深度学习 自然语言处理 算法
国际顶会OSDI首度收录淘宝系统论文,端云协同智能获大会主旨演讲推荐
大淘宝技术团队论文入选计算机系统领域顶级国际学术会议OSDI,这是淘宝系统论文首次入选该国际顶会,论文详解了阿里历经四年、自主研发的首个端到端、通用型、规模化产业应用的端云协同机器学习系统“瓦力”——Walle。OSDI特别邀请到的David Tennenhouse在大会主旨演讲中专门推荐了Walle系统,对其技术先进性和应用落地效果赞誉有加。目前,Walle 作为阿里机器学习的基础设施支持 30+APP上 的300+个算法任务。
439 0
国际顶会OSDI首度收录淘宝系统论文,端云协同智能获大会主旨演讲推荐
|
机器学习/深度学习 数据采集 人工智能
百度亮相NeurIPS 首届Expo:向世界科普了一次中国自动机器学习框架
在 NeurIPS 的第一届 Expo 上,百度向 NeurIPS 2018 年大会参与者展现了什么?
137 0
百度亮相NeurIPS 首届Expo:向世界科普了一次中国自动机器学习框架
|
机器学习/深度学习 人工智能 自然语言处理
明年AI学术会议投稿规模炸裂!注意ICML 2019的这些变化
今日,ICML 2019 程序主席之一 Ruslan Salakhutdinov 教授在 Twitter 上表示为了鼓励可复现性和高质量的论文提交,今年 ICML 的程序委员会在论文提交上作出了三项改变。希望机器之心计划提交 ICML 2019 论文的读者们注意。
223 0
明年AI学术会议投稿规模炸裂!注意ICML 2019的这些变化
|
机器学习/深度学习 人工智能 编解码
CVPR 2017国内外亮点论文汇集:史上最盛大会议,华人占据半壁江山
深度学习界的「春晚」CVPR 2017 已在夏威夷火奴鲁鲁 Hawaii Convention Center 开幕,在本次大会接收的众多论文当中,有华人参与的接近半数。这七百余篇论文中有哪些亮点?众多参会的中国研究机构又贡献了多少?我们为你整理了一篇观看指南。
264 0
CVPR 2017国内外亮点论文汇集:史上最盛大会议,华人占据半壁江山
|
机器学习/深度学习 人工智能 大数据
再下一城!阿里文娱AI大脑北斗星团队论文入选NIPS 2021
NIPS (Conference and Workshop on Neural Information Processing System) 神经信息处理系统大会是机器学习领域的顶级会议。在NIPS 2021,阿里巴巴文娱AI大脑北斗星团队有一文入选,研究成果属于视觉分类领域。
489 0
再下一城!阿里文娱AI大脑北斗星团队论文入选NIPS 2021
|
人工智能 大数据
阿里云天池联合重庆广发“英雄帖”,用AI突破工业技术瓶颈
8月27日,在2019重庆智博会阿里云峰会上,重庆市大数据应用发展管理局、重庆市江津区人民政府联合阿里云天池大数据众智平台共同启动首届“数智重庆·全球产业赋能创新大赛”,旨在探索计算机视觉算法、运筹优化算法等AI技术,促进工业和人工智能技术融合,用技术驱动重庆产业智能转型升级。
1074 0