华为云到底用AI做了什么？从少坐一趟机场摆渡车谈起-阿里云开发者社区

你坐飞机的时候有没有想过一个问题：「为什么我坐的飞机总是不靠廊桥，还要拿着行李去挤摆渡车？」

微信图片_20211204100317.jpg

通常，相关人员会告诉你：廊桥资源比较珍贵，因此飞机靠桥的几率要低于停在远机位的几率。

其实，这个答案只说出了一部分原因。随着机场航班数量的不断增加，「靠桥率」成为了衡量机场运行管理水平的重要指标。要在这个指标上有所提高，除了改善硬件之外，「调度」也是一个突破口。在国内，深圳机场率先找准了这个「突破口」。深圳机场的廊桥机位与远机位的比例为 1:3。按照这个比例，很大一部分乘客都需要乘坐摆渡车。那么，如何让更多的航班停靠在廊桥呢？深圳机场给出的解决方案是：AI 智能调度。在 2018 年之前，深圳机场使用的调度方案主要是人工和系统配合的，每天 1000 多个航班的机位分配需要花掉 4 个小时。从 2018 年 11 月开始，深圳机场开始建设机位资源智能分配系统，2019 年正式上线。该系统将靠桥率提升了 10 个百分点，每个廊桥每天能多保障一个航班，一年之内为 400 万旅客省去了坐摆渡车的麻烦。同时，它还将机位分配的时间缩短为 1 分钟。

在刚刚结束的华为云 TechWave 人工智能专题日上，华为云人工智能领域首席科学家、IEEE Fellow 田奇向我们讲述了华为云 EI 运用 AI 技术带来的诸多智能化变革，深圳机场智能机位分配只是其中的一个例子。类似的例子还有很多，比如通过智能调配路上的信号灯缩短停车等待时间、利用智能防暴力卸货方案防止工作人员对快递进行暴力分拣等。

微信图片_20211204100322.png

华为云人工智能领域首席科学家、IEEE Fellow 田奇

AI 是一个需要长期积累的行业，事实上华为早就开始了 AI 相关研究，但一直比较低调，诺亚方舟等实验室也很少出现在「台前」。与之形成鲜明反差的是，华为手机的 AI 技术却屡次成为大众热议的话题。近几年，华为云全栈全场景 AI 强大的行业落地能力，在华为云 EI 企业智能体现得淋漓尽致。虽然成立还不到三年，华为云 EI 已经在 10 多个行业的 600 多个项目探索和落地。

而这一切，都离不开 AI 基础研究的支撑。

作为一个横跨学界和业界的研究者，田奇博士的加入为华为云 EI 的基础研究制定了新的规划。在他的带领下，华为云 EI 将专注于计算机视觉、决策优化和语音语义三大方向，并于近期在这三个方向上取得了多项世界第一的成绩。

计算机视觉：顶会论文近百篇，登顶 ImageNet、COCO 等权威数据集

计算机视觉是 AI 领域应用最广泛的技术之一，很多行业痛点都可以通过计算机视觉算法来解决，如道路拥堵诊断分析等。为了解决这些痛点，田奇博士带领的视觉研究团队从图像分类、检测、分割、多模态数据处理等多个方向入手，在基础研究领域取得了多项突破，有近百篇论文被 ICCV、ECCV、CVPR 等顶会收录。

图像分类：登顶 ImageNet、WebVision 数据集

作为人类最基本的能力，大脑可以对眼睛看到的常见目标进行精准的识别，比如猫、狗、车等。但是，由于每个人知识的局限性，常人很难完成成千上万类的物体识别。

为了解决这个问题，华为视觉团队从 2019 年年底开始发力，自研出了基于知识蒸馏与数据增强的分类算法，大幅提升了图像分类的性能。今年 3 月份，在 ImageNet-1000 大规模图像分类数据集上，该团队的 EffNet+CAKD 算法 top-1 精度达到了 85.8%，超越了长期以来霸榜的谷歌。

微信图片_20211204100333.jpg

其实，图像分类并没有看起来那么简单，标注数据中会存在很多噪声。在这些噪声的「误导」下，模型很容易出错。

为了让 AI 像人类一样更鲁棒地去处理有噪声数据的任务，华为视觉团队提出了新的 AI 模型学习范式，旨在提升 AI 模型对数据中错误样本的容忍度。

在由苏黎世联邦理工、Google Research、卡内基梅隆大学等共同组织的人工智能「世界杯」——WebVision 大规模网络图像数据识别竞赛中，华为以 82.97% 的精度击败了来自世界各地的 94 支参赛队伍，达到业界第一。

微信图片_20211204100336.png

在无监督学习方面，华为视觉团队自研的无监督学习算法在无标签的 ImageNet 数据集上达到了 72.4% 的精度，比 Facebook 何恺明组的 MOCO v2（71.1%）还要高出 1.3 个百分点。

图像检测与分割：登顶 COCO 数据集

不同于图像分类技术，图像检测和分割旨在让计算机可以像人一样识别到图片中更高层次的语义信息，比如检测目标的位置、理解目标的相互关系等。

为了解决这一类问题，华为视觉团队自研了自适应数据增强技术，在包含 16 万张图像的 COCO 数据集上实现了单模型 56.8%、多模型 58.8% 的检测精度，两项指标均达到了世界第一，打破了谷歌等公司在该领域多年的垄断。

微信图片_20211204100340.png

在这次疫情的大考中，原来只能依靠人类专家完成的新冠肺炎检测任务，华为云依靠领先的图像分割技术实现了肺炎更精准、更快速的检测，可以达到 CT 量化结果秒级输出，大大提升了辅助诊疗的质量和效率。

多模态数据处理：登顶 NuScenes 数据集

前面提到的图像分类、检测、分割等都是相对独立的任务，但在现实生活中，人们处理的往往是多个维度、多个模态的数据（如聊天时同时面对人脸和声音），计算机也不例外。

为了挖掘和整合不同模态数据之间的知识，华为视觉团队提出了图像底层信息融合技术，来处理语义分割信息和激光点云等多模态数据。在全世界最大规模的 3D 目标检测数据集 NuScenes 上，该团队击败了来自世界各地的 92 支队伍，达到了 64.2% 的检测精度，取得业界第一，领先第二名 3.1%。

在该项多模态技术的推动下，华为云 EI 提出了交通智能体，来解决「你今天堵车了吗」这个灵魂质问。

这些成果的取得和田奇博士的加入不无关系。田奇博士毕业于伊利诺伊大学香槟分校，师从计算视觉之父 Thomas S．Huang 教授。在加入华为之前，他在德州大学圣安东尼奥分校任教 17 年。目前，他已累计发表文章超过 550 篇，其中 250 多篇入围 IEEE TPAMI、IJCV、CVPR/ICCV/ECCV、NeurIPS 等国际顶级期刊和会议。

在 2018 年加入华为之后，田奇博士迅速适应了学界和业界的巨大差异，认识到「工业界更注重于商业价值以及方法的实用性，针对某一个特定的问题，提升用户体验，带来实际的价值」。在这种信念的指引下，他带领华为的视觉团队取得了多项基础研究突破，并将其落地到华为云 EI 的多个项目中。

针对视觉领域存在的诸多问题，田奇博士在今年 3 月份的华为开发者大会 2020（Cloud）上发布了《华为视觉研究计划》，旨在为小样本训练、多模态学习、端侧模型瘦身等提供解决方案。

决策优化：在 ESICUP 上达到世界最优

将一块大玻璃切成不同的形状，怎么切才能最大程度上减少浪费？将装有货物的箱子装进集装箱，如何实现空间利用的最大化？这些都是现实生活中普遍存在的决策优化问题，也是华为云 EI 重点发力的一大方向。

为了在工业生产过程中尽可能减少材料浪费、降低生产成本，华为云 EI 提出了业界顶尖的决策优化方案，在业内公开数据集 ESICUP 上达到世界最优，用最少的投入获得了最大程度的收益。

微信图片_20211204100346.png

除了文章开头提到的飞机靠桥率，这类问题在其他行业也非常常见。以物流行业为例，在路线优化问题上，华为云的智能系统改变了人工查询距离、匹配车型等操作，改为系统自动测算。相比于模拟人工编排路径得到的初始解，优化后的结果的整体运费下降了 20-30%。

语音语义：DiggScience 全球第一

华为云 EI 语音语义团队着力于发展私人定制化的语义服务，不断训练机器并自动学习，赋予机器认知、意识和推理的能力。同时，团队还开发出了世界顶尖的知识图谱平台，完成了从感知智能到认知智能的跃变。

这些成果也得到了海内外机构的高度认可。在 2019 年 10 月的 DiggScience 科学数据挖掘大赛（学术论文搜索匹配大赛）上，华为云以 58.7% 的准确率夺冠，超过第二名 5 个百分点。在今年 2 月的第 13 届网络搜索与数据挖掘国际会议（WSDM 2020）上，华为云带领的联合团队摘得 WSDM Cup 2020 大赛「论文引用意图识别任务」金牌。

微信图片_20211204100351.png

落地的背后

从以上研究成果和应用案例我们可以看出，华为云在 AI 基础研究的落地上是非常成功的。但有一点不可忽视：前沿研究和业务落地之间总是存在巨大的差异，田奇博士称之为「AI 使能鸿沟」。

从华为云 EI 落地的领域中我们不难发现，华为的团队挑的都是一些「硬骨头」。以工业视觉场景为例，在学术界，研究者面临的往往是标注准确、画质清晰的图像，但在工业界，标注错误、图像模糊是非常常见的，而且数据量也要大几个量级。同样严重的问题还有医疗领域的小样本训练以及端侧的模型瘦身等，而这些都是华为云 EI 发力的领域。

横跨学界和业界的双重身份使得田奇博士能够更加敏锐地感受到这些差异。在加入华为之后，他带领团队不断克服这些挑战，探索出了一系列解决方案。

除了技术层面的攻关之外，田奇博士在接受机器之心采访时还提到了华为云的团队合作机制及人才的选拔标准。

在团队合作方面，他表示，华为有着一套完整的促进研究组和产品线合作的机制，二者可以通过公司内部各种各样的活动进行交流，比如罗马广场、松鼠会等。研究组分享前沿的科研成果，产品线提出自身的业务痛点问题，一旦发现合作的机会，两者就可以通过联合项目组的形式进行攻关。同时，公司还创建了访问学者等机制，以期更好地促进研究组和产品线的沟通。

在人才方面，他指出，华为云 EI 团队需要的是既懂算法，又懂平台，而且还能了解行业的人。为什么这么讲？首先从研究方向来看，越来越多的行业要求为 AI 模型融入知识，将从业人员的经验系统化为行业知识图谱，使模型具备推理的能力，从感知智能过渡到认知智能。从行业需求来讲，不懂行业的研究者很容易陷入伪需求的漩涡，做出的产品与真实场景不匹配，无法解决行业痛点。

田奇博士还指出，在人才方面，除了鼓励算法研究者去向行业人员学习背景知识外，还要说服行业专家去分享自己的行业知识，使其接受 AI，这就要在沟通上多下功夫。

在谈到华为云 EI 的下一个技术发力点时，田奇表示，华为云 EI 将聚焦于两个方向：华为云体系架构和核心算法在行业中的落地。在体系架构方面，华为云希望将来端、边、云能够更好地协同，引入更多样化的端，同时结合华为在 5G 和 IoT 的连接优势，赋能更多的行业。在算法方面，华为希望能跟行业相结合，解决行业中的实际问题，使得核心算法落地行业。

面向分布式 AI 开发及计算场景，华为云推出 ModelArts Edge 智能小站

在研究和产业部门的密切配合下，华为云 EI 克服了落地的重重挑战，不仅将上述业界顶级的 AI 技术用到了自己产品中，还将其带到了各个行业。

而这一切，都是通过一个叫 ModelArts 的一站式 AI 开发管理平台实现的。该平台为机器学习与深度学习提供海量数据预处理及半自动化标注、大规模分布式 Training、自动化模型生成，及端 - 边 - 云模型按需部署能力，帮助用户快速创建和部署模型，管理全周期 AI 工作流。

如今，这一平台又有了新的延伸——ModelArts Edge 智能小站。

ModelArts Edge 智能小站主要面向分布式 AI 开发以及计算场景的需求，解决用户在自建 AI 平台过程中存在的一些痛点，如平台部署难度高；建设周期长，无法跟上快速变化的业务趋势等。

ModelArts Edge 沉淀了华为云 EI 在计算机视觉、决策优化、语音语义等领域的核心技术，以一体化全栈方式交付完整的 ModelArts 平台服务能力，是公有云服务在边缘侧的延伸，也是业界首个 AI 训练及推理边缘小站方案。

微信图片_20211204100357.png

华为云人工智能领域首席科学家田奇在华为云 TechWave 人工智能专题日发布 ModelArts Edge 智能小站。

为了让智能小站为客户提供与华为云上 ModelArts 一致的服务，该小站与 ModelArts 平台保持了 3 个统一：统一硬件平台、统一软件架构、统一平台服务。

在数据安全方面，智能小站部署在客户数据中心，通过物理隔离以确保安全合规，实现了数据本地存储、本地训练、本地推理。

在运维方面，小站通过专线接入华为云运维中心，实现统一运维。用户可以通过云上完成训练作业下发，而数据存储、训练、推理均在客户机房完成。

华为云的技术专家在采访中介绍了小站的一些具体应用案例。以某大型电网公司为例，该公司在各个省都有节点，但各省数据量不够大，因此需要在中心训练后再推到省节点进行迭代。这种情况下，更好的方案是在总的节点上建一个中心的「云」，每个省节点部署 ModelArts Edge 智能小站。各个省之间可以通过联邦共享数据。医院的场景也是如此。

田奇表示，未来，华为云 EI 还将持续把华为 AI 前沿算法产品化，并开放给各行业的 AI 开发者使用，通过技术创新驱动产业智能升级。