阿里云助力图森未来提升性能、加速模型迭代

简介: 理论上来说,GPU卡越多,整体算力越大,但是随着机器数的增加,不同机器的GPU之间的配合难度会越来越大,单张GPU卡的利用率反而会下降。所以增加了几十倍的卡的成本,但是性能却很难随之线性增长。 于是,阿里云的飞天AI加速器AIACC团队,针对图森未来的场景,在底层针对通讯、计算、时延和带宽等做了深度优化,将训练性能提升了将近60%,大大缩短了图森未来的模型优化时间,加速模型迭代,提高技术门槛。

公司简介

图森未来(TuSimple)成立于2015年,是一家专注于L4级无人驾驶卡车技术研发与应用的人工智能企业,已经实现卡车在干线物流场景和半封闭枢纽场景下的无人干预驾驶。图森未来品牌旗下产品——图森未来 L4 级别无人驾驶卡车能够实现环境感知、定位导航、决策控制等自动驾驶核心功能,可应用于高速公路货运和港内集装箱码头运输及其相似场景。

公司于2019年9月完成总额2.15亿美元D轮融资,资方:UPS、鼎晖资本、万都中国、累计融资超过3亿美元,最新估值超过12亿美元,是卡车无人驾驶头部企业,也是全球第一家无人驾驶卡车独角兽企业。
图森aaa.png

业务痛点

  • GPU利用率不高
    一台车自动驾驶卡车,两个星期会产生大约50TB的数据。图森未来目前有超过70台卡车在上路,意味着每天有大量的数据产生。为了让自动驾驶卡车更聪明,就需要不断地积累更多的真实数据集训练它目标检测与物体识别框架的能力。 随着业务高速发展,迭代越来越快,图森未来的模型也越来越复杂。每次模型迭代,都需要短时间调度大规模的GPU资源来分布式地进行模型训练。 然而,GPU服务器采购成本高,运维复杂,图森未来不得不投入越来越多的精力到运维工作中;更重要的是,图森未来发现,随着所用GPU数量增长,GPU的利用率却并不高。
  • 模型训练需求算力波动大
    每次迭代的模型训练完成之后,图森未来需要对优化后的模型进行测试。如果每次都要上路测试,成本大、风险高、而且不能验证各种极端情况。 幸亏,图森未来有个汽车仿真平台,模拟在各种环境下(例如:晴天、阴天、雨天、雾霾天、夜晚),模型的处理能力。 这种测试任务依赖开发人员的开发节奏,具有突发、临时、短期的特征,并且需要的算力规模非常大,如果包年包月地购买海量算力,则很多时候都处于闲置状态,需求来了可能算力又不够用,仿真模拟任务需要排队完成,影响开发人员的开发效率和模型的迭代速度。

解决方案

理论上来说,GPU卡越多,整体算力越大,但是随着机器数的增加,不同机器的GPU之间的配合难度会越来越大,单张GPU卡的利用率反而会下降。所以增加了几十倍的卡的成本,但是性能却很难随之线性增长。 于是,阿里云的飞天AI加速器AIACC团队,针对图森未来的场景,在底层针对通讯、计算、时延和带宽等做了深度优化,将训练性能提升了将近60%,大大缩短了图森未来的模型优化时间,加速模型迭代,提高技术门槛。
图森22.png
由于图森未来的整体业务架构早已实现容器化,为这类临时高峰场景做好了敏捷的业务储备。通过阿里云ASK(Alibaba Cloud Serverless Kubernetes)容器服务,图森未来可以在需要测试的时候,在阿里云上秒级启动大规模的容器集群,即刻获取海量算力,缩短了60%的模型测试时间;完成测试之后迅速释放算力,避免资源浪费。 阿里云ASK是Serverless免运维的K8s容器服务,底层使用阿里云ECI(Elastic Container Instance弹性容器实例)作为容器计算基础设施,提供高弹性、低成本、免运维的Serverless容器运行环境,免去用户对容器集群的运维和容量规划工作,大大节省了图森未来运维的工作量。 另外,ASK的计费粒度精确到秒,非常适用于仿真计算这类突发的高并发短时任务;针对长期的训练任务,图森未来则使用包年包月的ACK(Alibaba Cloud Kubernetes)。通过适用于长短任务的ACK+ASK产品搭配,即提升了图森未来的资源利用率,又节省了成本。
图森3.png

上云价值

  • 将图森未来训练性能提升了将近60%,大大缩短了图森未来的模型优化时间,加速模型迭代,提高技术门槛。
  • 缩短了60%的模型测试时间,完成测试之后迅速释放算力,避免资源浪费。
  • 免去用户对容器集群的运维和容量规划工作,大大节省了图森未来运维的工作量。
  • 通过适用于长短任务的ACK+ASK产品搭配,即提升了图森未来的资源利用率,又节省了成本。

相关产品

  • 容器服务 ACK
    容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。

更多关于容器服务 ACK的介绍,参见容器服务 ACK产品详情页

  • 飞天AI加速引擎
    飞天AI加速引擎是AIACC业界首个统一加速Tensorflow、MXNet、Caffe、PyTorch等主流深度学习框架的加速引擎,拿下斯坦福深度学习榜单Dawnbench图像识别四个世界第一。

更多关于飞天AI加速引擎的介绍,参见飞天AI加速引擎帮助文档。

  • 容器服务Serverless Kubernetes版
    Serverless 容器服务是一款基于阿里云弹性计算基础架构,同时完全兼容 Kuberentes 生态,安全、可靠的容器产品。通过该产品,您无需管理和维护集群,即可快速创建 Kuberentes 容器应用,并且根据应用实际使用的 CPU 和内存资源量进行按需付费,从而使您更专注于应用本身,而非运行应用的基础设施。

更多关于容器服务Serverless Kubernetes版的介绍,参见容器服务Serverless Kubernetes产品详情页

  • 弹性容器实例ECI
    阿里云弹性容器实例(Elastic Container Instance)提供安全的Serverless容器运行服务。您无需管理底层服务器,只需要提供打包好的Docker镜像,即可运行容器,并仅为容器实际运行消耗的资源付费。

更多关于弹性容器实例ECI的介绍,参见弹性容器实例ECI产品详情页

相关实践学习
使用ACS算力快速搭建生成式会话应用
阿里云容器计算服务 ACS(Container Compute Service)以Kubernetes为使用界面,采用Serverless形态提供弹性的算力资源,使您轻松高效运行容器应用。本文将指导您如何通过ACS控制台及ACS集群证书在ACS集群中快速部署并公开一个容器化生成式AI会话应用,并监控应用的运行情况。
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
相关文章
|
11月前
|
存储 人工智能 缓存
AI变革药物研发:深势科技的云原生实践之路
阿里云助力深势科技推出创新的玻尔Bohrium®科研云平台和Hermite®药物计算设计平台,并持续完善。这两项先进的工业设计与仿真基础设施成果通过AI技术赋能科学研究和工业研发,不仅大幅缩短了药物研发周期,降低了成本,还显著提高了研发成功率,为生物医药行业带来了前所未有的变革,这是AI for Science领域的重大突破。
740 38
|
存储 架构师 文件存储
云端渲染时长1.58亿核小时,阿里云助力国漫巨制《新神榜:杨戬》提升视效
阿里云E-HPC为影视渲染全流程量身定做的方案有幸成为诸多中国数字内容创作佳片后的推手,带来生产关系的改变
云端渲染时长1.58亿核小时,阿里云助力国漫巨制《新神榜:杨戬》提升视效
|
存储 运维 监控
复星健康集团陈清阳:云边端协同一体化,构建新一代双SaaS星医平台
上海复星健康科技(集团)有限公司技术总监陈清阳在【一云多形态】专场中带来了题为《云边端协同一体化,构建新一代双SaaS星医平台》的主题演讲,围绕复星健康集团在双SaaS服务建设过程中选型思考、集团数据能力建设、混合语音组网解决方案、复星健康的平台化工程实践等相关话题展开分享。
|
人工智能 运维 架构师
数美科技首席架构师陈建:基于云上弹性的高可用实时风控架构实践
2023年10月31日-11月2日,2023云栖大会在中国杭州·云栖小镇举行,北京数美时代科技有限公司首席架构师陈建在【CloudOps云上运维专场】发表了题为《基于云上弹性的高可用实时风控架构实践》的主题演讲,从在线实时风控架构及高可用解决方案等方向做了分享。
|
弹性计算 人工智能 Cloud Native
新开普副总裁焦征海:云原生计算基础设施助力新开普创新提速
新开普副总裁焦征海在【云服务器 & 计算服务】专场中带来了题为《云原生计算基础设施助力新开普创新提速》的主题演讲,围绕新开普业务上云之路、倚天ECS实例降本实践以及未来业务展望等相关话题展开。
|
运维 安全 云计算
蝶宇云陈林:基于阿里云计算巢的业务转型 | 2023云栖精选
2023年10月31日-11月2日,2023云栖大会在中国杭州·云栖小镇举行,蝶宇云科技总经理陈林在【计算巢专场】发表了题为《基于阿里云计算巢的业务转型》的主题演讲,从初创企业突破困境之路、拥抱阿里云计算巢、专注安全运维托管服务等方向做了分享。 立即购买【蝶宇云—金蝶云星空计算巢(企业版SaaS服务)】:https://market.aliyun.com/products/56082003/cmgj00064150.html?#sku=yuncode5815000001
|
存储 弹性计算 缓存
阿里云助力元戎启行 加速自动驾驶应用落地
曾经在科幻电影中才会出现的自动驾驶汽车,如今已经驶进了真实道路。
阿里云助力元戎启行 加速自动驾驶应用落地
|
存储 传感器 弹性计算
序祯达生物联合创始人兼CIO费家俊:弹性计算助力测序多组学应用提升新药研发效率
序祯达生物联合创始人兼首席信息官费家俊在【高性能计算】专场中带来了题为《加速裂变,催化创新——弹性计算赋能测序多组学应用提升新药研发效率》的主题演讲,围绕弹性计算如何助力测序多组学应用提升新药研发效率、创新药研发详解以及测序分析等相关话题展开。
|
Kubernetes Cloud Native 容灾
携程乐鸿辉:混合云弹性如何帮助携程应对业务的低迷与快速恢复
2023年10月31日-11月2日,2023云栖大会在中国杭州·云栖小镇举行,携程容器与混合云研发总监乐鸿辉在【云服务器 & 计算服务】专场中带来了题为《混合云弹性如何帮助携程应对业务的低迷与快速恢复》的主题演讲,分享了携程的云原生之旅、混合云弹性实践以及最终实践效果。
|
弹性计算 运维 负载均衡
vika维格表 x 阿里云计算巢:SaaS 云端私有化部署,助力企业数字化转型
如果不想你的企业错过时代的节奏,丧失创新和发展能力,那就尽快融入数字经济的浪潮吧。
vika维格表 x 阿里云计算巢:SaaS 云端私有化部署,助力企业数字化转型