阿里云飞天AI加速器+Serverless容器,帮助图森未来提升资源利用率

本文涉及的产品
简介: 今年年初,图森未来的无人驾驶卡车还上了“钢铁侠”的扮演者小罗伯特·唐尼主持的科技聚集剧集《The Age of A.I.》(《AI时代》),在剧中不仅顺利完成无人驾驶的行驶任务,还与围追堵截的摄像车“斗智斗勇”,在摄像车各种找拍摄角度的情况下,自动自我调整,化险为夷,避让既礼貌又安全!

hailuo_164850200_RF_线上全媒体用途.jpg

图森未来(TuSimple)成立于2015年,是一家专注于L4级无人驾驶卡车技术研发与应用的人工智能企业,已经实现卡车在干线物流场景和半封闭枢纽场景下的无人干预驾驶。图森未来品牌旗下产品——图森未来 L4 级别无人驾驶卡车能够实现环境感知、定位导航、决策控制等自动驾驶核心功能,可应用于高速公路货运和港内集装箱码头运输及其相似场景。

公司于2019年9月完成总额2.15亿美元D轮融资,资方:UPS、鼎晖资本、万都中国、累计融资超过3亿美元,最新估值超过12亿美元,是卡车无人驾驶头部企业,也是全球第一家无人驾驶卡车独角兽企业。

图森未来的业务主要在美国和国内两地展开,在美国主要是高速公路干路货运场景,国内业务开始以连接枢纽场景的干线物流货运为主。

在美国,图森未来已经向包括UPS、USPS、McLane、U.S. Xpress在内的18家客户提供无人驾驶物流服务。

今年年初,图森未来的无人驾驶卡车还上了“钢铁侠”的扮演者小罗伯特·唐尼主持的科技聚集剧集《The Age of A.I.》(《AI时代》),在剧中不仅顺利完成无人驾驶的行驶任务,还与围追堵截的摄像车“斗智斗勇”,在摄像车各种找拍摄角度的情况下,自动自我调整,化险为夷,避让既礼貌又安全。

国内方面,2018年 10月,图森未来拿到国内第一张针对无人驾驶卡车在公开道路测试的测试牌照。依托上海市政府的政策支持,以及临港片区真实场景的需求,图森未来的无人驾驶卡车已经在东海大桥上进行了长时间的测试,截至2020年7月,累计测试里程已超过5万公里,具备了在东海大桥上不需要接管的无人驾驶能力。

在北京,图森未来携手北汽福田、首发集团等合作伙伴,实现了在京礼高速(延崇北京段)总长14公里(包括9.8公里连续特长隧道群路段)的三车无人驾驶队列跟弛测试,顺利完成中国首次高速公路全封闭环境下、基于C-V2X车路协同技术的队列跟驰测试工作。

飞天AI加速器提升训练性能,加速模型迭代

一台车自动驾驶卡车,两个星期会产生大约50TB的数据。图森未来目前有超过70台卡车在上路,意味着每天有大量的数据产生。为了让自动驾驶卡车更聪明,就需要不断地积累更多的真实数据集训练它目标检测与物体识别框架的能力。

随着业务高速发展,迭代越来越快,图森未来的模型也越来越复杂。每次模型迭代,都需要短时间调度大规模的GPU资源来分布式地进行模型训练。

然而,GPU服务器采购成本高,运维复杂,图森未来不得不投入越来越多的精力到运维工作中;更重要的是,图森未来发现,随着所用GPU数量增长,GPU的利用率却并不高。

为什么会这样?理论上来说,GPU卡越多,整体算力越大,但是随着机器数的增加,不同机器的GPU之间的配合难度会越来越大,单张GPU卡的利用率反而会下降。所以增加了几十倍的卡的成本,但是性能却很难随之线性增长。

阿里云的飞天AI加速器AIACC团队,针对图森未来的场景,在底层针对通讯、计算、时延和带宽等做了深度优化,将训练性能提升了将近60%,大大缩短了图森未来的模型优化时间,加速模型迭代,提高技术门槛。

飞天AI加速器是AIACC业界首个统一加速,Tensorflow、MXNet、Caffe、PyTorch等主流深度学习框架的加速引擎,拿下斯坦福深度学习榜单Dawnbench图像识别四个世界第一。

Serverless容器,提升仿真测试效率,缩短60%模型测试时间

每次迭代的模型训练完成之后,图森未来需要对优化后的模型进行测试。如果每次都要上路测试,成本大、风险高、而且不能验证各种极端情况。

幸亏,图森未来有个汽车仿真平台,模拟在各种环境下(例如:晴天、阴天、雨天、雾霾天、夜晚),模型的处理能力。

这种测试任务依赖开发人员的开发节奏,具有突发、临时、短期的特征,并且需要的算力规模非常大,如果包年包月地购买海量算力,则很多时候都处于闲置状态,需求来了可能算力又不够用,仿真模拟任务需要排队完成,影响开发人员的开发效率和模型的迭代速度。

由于图森未来的整体业务架构早已实现容器化,为这类临时高峰场景做好了敏捷的业务储备。通过阿里云ASK(Alibaba Cloud Serverless Kubernetes)容器服务,图森未来可以在需要测试的时候,在阿里云上秒级启动大规模的容器集群,即刻获取海量算力,缩短了60%的模型测试时间;完成测试之后迅速释放算力,避免资源浪费。

阿里云ASK是Serverless免运维的K8s容器服务,底层使用阿里云ECI(Elastic Container Instance弹性容器实例)作为容器计算基础设施,提供高弹性、低成本、免运维的Serverless容器运行环境,免去用户对容器集群的运维和容量规划工作,大大节省了图森未来运维的工作量。

另外,ASK的计费粒度精确到秒,非常适用于仿真计算这类突发的高并发短时任务;针对长期的训练任务,图森未来则使用包年包月的ACK(Alibaba Cloud Kubernetes)。通过适用于长短任务的ACK+ASK产品搭配,即提升了图森未来的资源利用率,又节省了成本。

相关实践学习
基于函数计算一键部署掌上游戏机
本场景介绍如何使用阿里云计算服务命令快速搭建一个掌上游戏机。
建立 Serverless 思维
本课程包括: Serverless 应用引擎的概念, 为开发者带来的实际价值, 以及让您了解常见的 Serverless 架构模式
相关文章
|
18天前
招募!阿里云x魔搭社区发起Create@AI创客松邀你探索下一代多维智能体应用
招募!阿里云x魔搭社区发起Create@AI创客松邀你探索下一代多维智能体应用
285 0
|
1月前
|
安全 API 持续交付
要利用阿里云控制API查询您的阿里云资源
【2月更文挑战第33天】要利用阿里云控制API查询您的阿里云资源
20 3
|
2月前
|
人工智能 运维 Kubernetes
阿里云容器服务ACK AI助手正式上线带来的便利性
作为开发者想必大家都知道,云原生容器技术的优势,尤其是近两年的随着容器技术的迅猛发展,Kubernetes(K8s)已成为广泛应用于容器编排和管理的领先解决方案,但是K8s的运维复杂度一直是挑战之一。为了应对这一问题,就在最近,阿里云容器服务团队正式发布了ACK AI助手,这是一款旨在通过大模型增强智能诊断的产品,旨在帮助企业和开发者降低Kubernetes(K8s)的运维复杂度。那么本文就来详细讲讲关于这款产品,让我们结合实际案例分享一下K8s的运维经验,探讨ACK AI助手能否有效降低K8s的运维复杂度,并展望ACK AI助手正式版上线后的新功能。
269 2
阿里云容器服务ACK AI助手正式上线带来的便利性
|
2月前
|
人工智能 数据管理 Serverless
阿里云数据库走向Serverless与AI驱动的一站式数据平台具有重大意义和潜力
阿里云数据库走向Serverless与AI驱动的一站式数据平台具有重大意义和潜力
404 2
|
2月前
|
人工智能 运维 Cloud Native
、你如何看待阿里云数据库走向Serverless与AI驱动的一站式数据平台?
、你如何看待阿里云数据库走向Serverless与AI驱动的一站式数据平台?
149 2
|
2月前
|
监控 安全 关系型数据库
在规划阿里云RDS跨区迁移资源和服务可用性
在规划阿里云RDS跨区迁移资源和服务可用性
260 4
|
2月前
|
弹性计算 API Python
如何利用通义千问查询阿里云资源
本篇文章详细阐述了如何利用LangChain框架构建一款Python工具,该工具能够调用通义千问大模型来查询和获取阿里云资源信息。
115579 48
|
2月前
|
人工智能 数据管理 大数据
阿里云数据库走向Serverless与AI驱动的一站式数据平台是一个很有前景和意义的发展方向
阿里云数据库走向Serverless与AI驱动的一站式数据平台是一个很有前景和意义的发展方向
34 2
|
18天前
|
人工智能 自然语言处理 测试技术
“送云资源、用大模型” 阿里云启动云工开物“高校训练营”计划
“送云资源、用大模型” 阿里云启动云工开物“高校训练营”计划
31 1
|
24天前
|
消息中间件 Kubernetes Kafka
Terraform阿里云创建资源1分钟创建集群一键发布应用Terraform 创建 Kubernetes 集群
Terraform阿里云创建资源1分钟创建集群一键发布应用Terraform 创建 Kubernetes 集群
16 0

相关产品

  • 函数计算