图森未来如何借助云缩短60%模型训练时间-阿里云开发者社区

图森未来如何借助云缩短60%模型训练时间

2020-07-30 1227

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 阿里云飞天AI加速器+Serverless容器，帮助图森未来提升资源利用率。

题图.jpg

图森未来（TuSimple）成立于2015年，是一家专注于L4级无人驾驶卡车技术研发与应用的人工智能企业，已经实现卡车在干线物流场景和半封闭枢纽场景下的无人干预驾驶。图森未来品牌旗下产品——图森未来 L4 级别无人驾驶卡车能够实现环境感知、定位导航、决策控制等自动驾驶核心功能，可应用于高速公路货运和港内集装箱码头运输及其相似场景。
公司于2019年9月完成总额2.15亿美元D轮融资，资方：UPS、鼎晖资本、万都中国、累计融资超过3亿美元，最新估值超过12亿美元，是卡车无人驾驶头部企业，也是全球第一家无人驾驶卡车独角兽企业。
图森未来的业务主要在美国和国内两地展开，在美国主要是高速公路干路货运场景，国内业务开始以连接枢纽场景的干线物流货运为主。

在美国，图森未来已经向包括UPS、USPS、McLane、U.S. Xpress在内的18家客户提供无人驾驶物流服务。
今年年初，图森未来的无人驾驶卡车还上了“钢铁侠”的扮演者小罗伯特·唐尼主持的科技聚集剧集《The Age of A.I.》（《AI时代》），在剧中不仅顺利完成无人驾驶的行驶任务，还与围追堵截的摄像车“斗智斗勇”，在摄像车各种找拍摄角度的情况下，自动自我调整，化险为夷，避让既礼貌又安全。
国内方面，2018年 10月，图森未来拿到国内第一张针对无人驾驶卡车在公开道路测试的测试牌照。依托上海市政府的政策支持，以及临港片区真实场景的需求，图森未来的无人驾驶卡车已经在东海大桥上进行了长时间的测试，截至2020年7月，累计测试里程已超过5万公里，具备了在东海大桥上不需要接管的无人驾驶能力。

（在港口卸货的图森未来自动驾驶卡车）

在北京，图森未来携手北汽福田、首发集团等合作伙伴，实现了在京礼高速（延崇北京段）总长14公里（包括9.8公里连续特长隧道群路段）的三车无人驾驶队列跟弛测试，顺利完成中国首次高速公路全封闭环境下、基于C-V2X车路协同技术的队列跟驰测试工作。

飞天AI加速器提升训练性能，加速模型迭代
一台车自动驾驶卡车，两个星期会产生大约50TB的数据。图森未来目前有超过70台卡车在上路，意味着每天有大量的数据产生。为了让自动驾驶卡车更聪明，就需要不断地积累更多的真实数据集训练它目标检测与物体识别框架的能力。
随着业务高速发展，迭代越来越快，图森未来的模型也越来越复杂。每次模型迭代，都需要短时间调度大规模的GPU资源来分布式地进行模型训练。
然而，GPU服务器采购成本高，运维复杂，图森未来不得不投入越来越多的精力到运维工作中；更重要的是，图森未来发现，随着所用GPU数量增长，GPU的利用率却并不高。
为什么会这样？理论上来说，GPU卡越多，整体算力越大，但是随着机器数的增加，不同机器的GPU之间的配合难度会越来越大，单张GPU卡的利用率反而会下降。所以增加了几十倍的卡的成本，但是性能却很难随之线性增长。
阿里云的飞天AI加速器AIACC团队，针对图森未来的场景，在底层针对通讯、计算、时延和带宽等做了深度优化，将训练性能提升了将近60%，大大缩短了图森未来的模型优化时间，加速模型迭代，提高技术门槛。

飞天AI加速器是AIACC业界首个统一加速Tensorflow、MXNet、Caffe、PyTorch等主流深度学习框架的加速引擎，拿下斯坦福深度学习榜单Dawnbench图像识别四个世界第一。

Serverless容器，提升仿真测试效率，缩短60%模型测试时间
每次迭代的模型训练完成之后，图森未来需要对优化后的模型进行测试。如果每次都要上路测试，成本大、风险高、而且不能验证各种极端情况。
幸亏，图森未来有个汽车仿真平台，模拟在各种环境下（例如：晴天、阴天、雨天、雾霾天、夜晚），模型的处理能力。
这种测试任务依赖开发人员的开发节奏，具有突发、临时、短期的特征，并且需要的算力规模非常大，如果包年包月地购买海量算力，则很多时候都处于闲置状态，需求来了可能算力又不够用，仿真模拟任务需要排队完成，影响开发人员的开发效率和模型的迭代速度。
由于图森未来的整体业务架构早已实现容器化，为这类临时高峰场景做好了敏捷的业务储备。通过阿里云ASK（Alibaba Cloud Serverless Kubernetes）容器服务，图森未来可以在需要测试的时候，在阿里云上秒级启动大规模的容器集群，即刻获取海量算力，缩短了60%的模型测试时间；完成测试之后迅速释放算力，避免资源浪费。
阿里云ASK是Serverless免运维的K8s容器服务，底层使用阿里云ECI（Elastic Container Instance弹性容器实例）作为容器计算基础设施，提供高弹性、低成本、免运维的Serverless容器运行环境，免去用户对容器集群的运维和容量规划工作，大大节省了图森未来运维的工作量。

另外，ASK的计费粒度精确到秒，非常适用于仿真计算这类突发的高并发短时任务；针对长期的训练任务，图森未来则使用包年包月的ACK（Alibaba Cloud Kubernetes）。通过适用于长短任务的ACK+ASK产品搭配，即提升了图森未来的资源利用率，又节省了成本。

图森未来如何借助云缩短60%模型训练时间

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

图森未来如何借助云缩短60%模型训练时间

热门文章

最新文章

相关电子书