用户介绍 图森未来(TuSimple)成立于 2015 年,是一家专注于 L4 级无人驾驶卡车技术研 发与应用的人工智能企业,已经实现卡车在干线物流场景和半封闭枢纽场景下的无人干预驾 驶。图森未来品牌旗下产品——图森未来 L4 级别无人驾驶卡车能够实现环境感知、定位 导航、决策控制等自动驾驶核心功能,可应用于高速公路货运和港内集装箱码头运输及其相 似场景。公司于 2019 年 9 月完成总额 2.15 亿美元 D 轮融资,资方:UPS、鼎晖资本、 万都中国累计融资超过 3 亿美元,最新估值超过 12 亿美元,是卡车无人驾驶头部企业, 也是全球第一家无人驾驶卡车独角兽企业。 业务痛点 GPU 利用率不高 一台车自动驾驶卡车,两个星期会产生大约 50TB 的数据。图森未来目前有超过 70 台卡车在上路,意味着每天有大量的数据产生。为了让自动驾驶卡车更聪明,就需要不断地 积累更多的真实数据集训练它目标检测与物体识别框架的能力。 随着业务高速发展,迭代 越来越快,图森未来的模型也越来越复杂。每次模型迭代,都需要短时间调度大规模的 GPU 资源来分布式地进行模型训练。 然而,GPU 服务器采购成本高,运维复杂,图森 未来不得不投入越来越多的精力到运维工作中;更重要的是,图森未来发现,随着所用 GPU 数量增长,GPU 的利用率却并不高。 模型训练需求算力波动大 每次迭代的模型训练完成之后,图森未来需要对优化后的模型进行测试。如果每次都要 上路测试,成本大、风险高、而且不能验证各种极端情况。 幸亏,图森未来有个汽车仿真平台,模拟在各种环境下(例如:晴天、阴天、雨天、雾霾天、夜晚)模型的处理能力。这 种测试任务依赖开发人员的开发节奏,具有突发、临时、短期的特征,并且需要的算力规模 非常大,如果包年包月地购买海量算力,则很多时候都处于闲置状态,需求来了可能算力又 不够用,仿真模拟任务需要排队完成,影响开发人员的开发效率和模型的迭代速度。 解决方案 理论上来说,GPU 卡越多,整体算力越大,但是随着机器数的增加,不同机器的 GPU 之间的配合难度会越来越大,单张 GPU 卡的利用率反而会下降。所以增加了几十 倍的卡的成本,但是性能却很难随之线性增长。 于是,阿里云的飞天 AI 加速器 AIACC 团队,针对图森未来的场景,在底层针对通讯、计算、时延和带宽等做了深度优化,将训练 性能提升了将近 60%,大大缩短了图森未来的模型优化时间,加速模型迭代,提高技术门 槛。由于图森未来的整体业务架构早已实现容器化,为这类临时高峰场景做好了敏捷的业务 储备。通过阿里云 ASK(Alibaba Cloud Serverless Kubernetes)容器服务,图森未 来可以在需要测试的时候,在阿里云上秒级启动大规模的容器集群,即刻获取海量算力,缩 短了 60% 的模型测试时间;完成测试之后迅速释放算力,避免资源浪费。阿里云 ASK 是 Serverless 免运维的 K8s 容器服务,底层使用阿里云 ECI( Elastic Container Instance 弹性容器实例)作为容器计算基础设施,提供高弹性、低成 本、免运维的 Serverless 容器运行环境,免去用户对容器集群的运维和容量规划工作, 大大节省了图森未来运维的工作量。 另外,ASK 的计费粒度精确到秒,非常适用于仿真 计算这类突发的高并发短时任务;针对长期的训练任务,图森未来则使用包年包月的 ACK (Alibaba Cloud Kubernetes)。通过适用于长短任务的 ACK+ASK 产品搭配,即提 升了图森未来的资源利用率,又节省了成本。上云价值 将图森未来训练性能提升了将近 60%,大大缩短了图森未来的模型优化时间,加速模 型迭代,提高技术门槛。 缩短了 60% 的模型测试时间,完成测试之后迅速释放算力,避免资源浪费。 免去用户对容器集群的运维和容量规划工作,大大节省了图森未来运维的工作量。 通过适用于长短任务的 ACK+ASK 产品搭配,即提升了图森未来的资源利用率,又 节省了成本。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
阿里云拥有国内全面的云原生产品技术以及大规模的云原生应用实践,通过全面容器化、核心技术互联网化、应用 Serverless 化三大范式,助力制造业企业高效上云,实现系统稳定、应用敏捷智能。拥抱云原生,让创新无处不在。