图森未来如何借助云缩短60%模型训练时间

简介: 阿里云飞天AI加速器+Serverless容器,帮助图森未来提升资源利用率。

题图.jpg

图森未来(TuSimple)成立于2015年,是一家专注于L4级无人驾驶卡车技术研发与应用的人工智能企业,已经实现卡车在干线物流场景和半封闭枢纽场景下的无人干预驾驶。图森未来品牌旗下产品——图森未来 L4 级别无人驾驶卡车能够实现环境感知、定位导航、决策控制等自动驾驶核心功能,可应用于高速公路货运和港内集装箱码头运输及其相似场景。
公司于2019年9月完成总额2.15亿美元D轮融资,资方:UPS、鼎晖资本、万都中国、累计融资超过3亿美元,最新估值超过12亿美元,是卡车无人驾驶头部企业,也是全球第一家无人驾驶卡车独角兽企业。
图森未来的业务主要在美国和国内两地展开,在美国主要是高速公路干路货运场景,国内业务开始以连接枢纽场景的干线物流货运为主。

在美国,图森未来已经向包括UPS、USPS、McLane、U.S. Xpress在内的18家客户提供无人驾驶物流服务。
今年年初,图森未来的无人驾驶卡车还上了“钢铁侠”的扮演者小罗伯特·唐尼主持的科技聚集剧集《The Age of A.I.》(《AI时代》),在剧中不仅顺利完成无人驾驶的行驶任务,还与围追堵截的摄像车“斗智斗勇”,在摄像车各种找拍摄角度的情况下,自动自我调整,化险为夷,避让既礼貌又安全。
国内方面,2018年 10月,图森未来拿到国内第一张针对无人驾驶卡车在公开道路测试的测试牌照。依托上海市政府的政策支持,以及临港片区真实场景的需求,图森未来的无人驾驶卡车已经在东海大桥上进行了长时间的测试,截至2020年7月,累计测试里程已超过5万公里,具备了在东海大桥上不需要接管的无人驾驶能力。

1.jpg
(在港口卸货的图森未来自动驾驶卡车)

在北京,图森未来携手北汽福田、首发集团等合作伙伴,实现了在京礼高速(延崇北京段)总长14公里(包括9.8公里连续特长隧道群路段)的三车无人驾驶队列跟弛测试,顺利完成中国首次高速公路全封闭环境下、基于C-V2X车路协同技术的队列跟驰测试工作。

飞天AI加速器提升训练性能,加速模型迭代
一台车自动驾驶卡车,两个星期会产生大约50TB的数据。图森未来目前有超过70台卡车在上路,意味着每天有大量的数据产生。为了让自动驾驶卡车更聪明,就需要不断地积累更多的真实数据集训练它目标检测与物体识别框架的能力。
随着业务高速发展,迭代越来越快,图森未来的模型也越来越复杂。每次模型迭代,都需要短时间调度大规模的GPU资源来分布式地进行模型训练。
然而,GPU服务器采购成本高,运维复杂,图森未来不得不投入越来越多的精力到运维工作中;更重要的是,图森未来发现,随着所用GPU数量增长,GPU的利用率却并不高。
为什么会这样?理论上来说,GPU卡越多,整体算力越大,但是随着机器数的增加,不同机器的GPU之间的配合难度会越来越大,单张GPU卡的利用率反而会下降。所以增加了几十倍的卡的成本,但是性能却很难随之线性增长。
阿里云的飞天AI加速器AIACC团队,针对图森未来的场景,在底层针对通讯、计算、时延和带宽等做了深度优化,将训练性能提升了将近60%,大大缩短了图森未来的模型优化时间,加速模型迭代,提高技术门槛。
image.png

飞天AI加速器是AIACC业界首个统一加速Tensorflow、MXNet、Caffe、PyTorch等主流深度学习框架的加速引擎,拿下斯坦福深度学习榜单Dawnbench图像识别四个世界第一。

Serverless容器,提升仿真测试效率,缩短60%模型测试时间
每次迭代的模型训练完成之后,图森未来需要对优化后的模型进行测试。如果每次都要上路测试,成本大、风险高、而且不能验证各种极端情况。
幸亏,图森未来有个汽车仿真平台,模拟在各种环境下(例如:晴天、阴天、雨天、雾霾天、夜晚),模型的处理能力。
这种测试任务依赖开发人员的开发节奏,具有突发、临时、短期的特征,并且需要的算力规模非常大,如果包年包月地购买海量算力,则很多时候都处于闲置状态,需求来了可能算力又不够用,仿真模拟任务需要排队完成,影响开发人员的开发效率和模型的迭代速度。
由于图森未来的整体业务架构早已实现容器化,为这类临时高峰场景做好了敏捷的业务储备。通过阿里云ASK(Alibaba Cloud Serverless Kubernetes)容器服务,图森未来可以在需要测试的时候,在阿里云上秒级启动大规模的容器集群,即刻获取海量算力,缩短了60%的模型测试时间;完成测试之后迅速释放算力,避免资源浪费。
阿里云ASK是Serverless免运维的K8s容器服务,底层使用阿里云ECI(Elastic Container Instance弹性容器实例)作为容器计算基础设施,提供高弹性、低成本、免运维的Serverless容器运行环境,免去用户对容器集群的运维和容量规划工作,大大节省了图森未来运维的工作量。
image.png
另外,ASK的计费粒度精确到秒,非常适用于仿真计算这类突发的高并发短时任务;针对长期的训练任务,图森未来则使用包年包月的ACK(Alibaba Cloud Kubernetes)。通过适用于长短任务的ACK+ASK产品搭配,即提升了图森未来的资源利用率,又节省了成本。

相关实践学习
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
目录
相关文章
|
Kotlin
【Kotlin】Kotlin 类的继承 三 ( super 关键字使用 | super@ 外部调用父类方法 | 子类选择性调用 父类 / 接口 方法 super )
【Kotlin】Kotlin 类的继承 三 ( super 关键字使用 | super@ 外部调用父类方法 | 子类选择性调用 父类 / 接口 方法 super )
1106 0
|
8天前
|
Shell API 开发工具
Claude Code 快速上手指南(新手友好版)
AI编程工具卷疯啦!Claude Code凭借任务驱动+终端原生的特性,成了开发者的效率搭子。本文从安装、登录、切换国产模型到常用命令,手把手带新手快速上手,全程避坑,30分钟独立用起来。
2759 15
|
6天前
|
人工智能 开发工具 iOS开发
Claude Code 新手完全上手指南:安装、国产模型配置与常用命令全解
Claude Code 是一款运行在终端环境中的 AI 编程助手,能够直接在命令行中完成代码生成、项目分析、文件修改、命令执行、Git 管理等开发全流程工作。它最大的特点是**任务驱动、终端原生、轻量高效、多模型兼容**,无需图形界面、不依赖 IDE 插件,能够深度融入开发者日常工作流。
2293 4
|
21天前
|
人工智能 JSON 供应链
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
LucianaiB分享零成本畅用JVS Claw教程(学生认证享7个月使用权),并开源GeoMind项目——将JVS改造为科研与产业地理情报可视化AI助手,支持飞书文档解析、地理编码与腾讯地图可视化,助力产业关系图谱构建。
23553 13
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
|
8天前
|
人工智能 JSON BI
DeepSeek V4-Pro 接入 Claude Code 完全实战:体验、测试与关键避坑指南
Claude Code 作为当前主流的 AI 编程辅助工具,凭借强大的代码理解、工程执行与自动化能力深受开发者喜爱,但原生模型的使用成本相对较高。为了在保持能力的同时进一步降低开销,不少开发者开始寻找兼容度高、价格更友好的替代模型。DeepSeek V4 系列的发布带来了新的选择,该系列包含 V4-Pro 与 V4-Flash 两款模型,并提供了与 Anthropic 完全兼容的 API 接口,理论上只需简单修改配置,即可让 Claude Code 无缝切换为 DeepSeek 引擎。
2048 1
|
2天前
|
人工智能 Linux BI
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
JeecgBoot AI专题研究 一键脚本:Claude Code + JeecgBoot Skills + DeepSeek 全平台接入 一行命令装好 Claude Code + JeecgBoot Skills + DeepSeek 接入,无需翻墙使用 Claude Code,支持 Wind
1294 1
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
|
14天前
|
人工智能 缓存 Shell
Claude Code 全攻略:命令大全 + 实战工作流(完整版)
Claude Code 是一款运行在终端环境下的 AI 编码助手,能够直接在项目目录中理解代码结构、编辑文件、执行命令、执行开发计划,并支持持久化记忆、上下文压缩、后台任务、多模型切换等专业能力。对于日常开发、项目维护、快速重构、代码审查等场景,它可以大幅减少手动操作、提升编码效率。本文从常用命令、界面模式、核心指令、记忆机制、图片处理、进阶工作流等维度完整说明,帮助开发者快速上手并稳定使用。
3449 5