GTC 2019大会,一文看完阿里云三场演讲精华

简介: 12月17-19日,英伟达(NVIDIA)的GPU技术大会(GTC 2019)在苏州金鸡湖国际会议中心举办。 作为异构计算主要的加速器,GPU已经被广泛用户图形图像、深度学习与人工智能、科学计算。 作为最大的人工智能和深度学习大会之一,GTC大会影响力越来越大,今年也是人头攒动。英伟达创始人黄仁勋在演讲中介绍,今年注册GTC的人数高达6100人,想比三年前增幅达250%,为史上最大的GTC C

12月17-19日,英伟达(NVIDIA)的GPU技术大会(GTC 2019)在苏州金鸡湖国际会议中心举办。

作为异构计算主要的加速器,GPU已经被广泛用户图形图像、深度学习与人工智能、科学计算。

作为最大的人工智能和深度学习大会之一,GTC大会影响力越来越大,今年也是人头攒动。英伟达创始人黄仁勋在演讲中介绍,今年注册GTC的人数高达6100人,想比三年前增幅达250%,为史上最大的GTC China会议。

在这场盛会中,阿里云团队受邀出席作分享,还在开发者之夜演示如何利用阿里云的GPU工具+开放平台,花了几块钱,就在1小时做出手势识别AI小程序。

阿里云异构计算和容器服务四位技术专家介绍了阿里云和英伟达共同研发的国内首个轻量级GPU实例VGN5i、飞天AI加速解决方案,以及如何在阿里云容器服务中使用CPU加速大数据处理。

为5G潜力场景云游戏铺路

阿里云异构计算技术专家高峰指出,5G时代即将到来,云游戏可能会迎来大爆发。在带宽不再成为限制的前提下,用户即便用配置不高的终端设备,也能玩大型游戏。这将是GPU未来的重要应用场景。

然而,传统的GPU虚拟化技术设备直通模式下,每个GPU只能提供给一台虚拟机。可在云游戏场景中,企业通常仅需要一颗物理GPU几分之一的计算能力即可流畅完成图形或视觉计算;深度学习推理场景亦然,可能只需要训练阶段的数十分之一的GPU计算资源,甚至更少。这就导致“计算资源过剩”。

针对这种场景,阿里云和英伟达共同研发了国内首个公共云上的轻量级GPU异构计算产品——VGN5i实例,该实例打破了传统直通模式的局限,可以提供比单颗物理GPU更细粒度的服务,让客户以更低成本、更高弹性开展业务。

该产品基于NVIDIA Tesla P4 GPU,集成了阿里云智能资源调度技术,适用于云游戏、AR/VR以及图形处理等GPU计算场景。

高峰介绍,该款产品从硬件级别实现资源隔离,可以让每个用户独享为其分配的显存,并做到虚拟机级别的安全隔离。此外,常规GPU实例无法通过在线迁移来保障业务连续性,该款实例能实现秒级别的热迁移。

今年云栖大会,阿里云还发布了基于NVIDIA T4的GPU异构计算产品VGN6i实例。

飞天AI加速解决方案

vGPU面向需要更细颗粒度GPU的场景,AI加速才是GPU目前的主要应用场景,也是阿里云异构计算业务的拳头业务。

相较于自行购买服务器,客户在云上进行AI训练和推理业务,可以更为省时省力,业务触发时才购买GPU实例资源,训练和推理任务结束时,自动释放/停止GPU实例资源。该弹性优势在应用的推理场景中尤为突出。

在云原有优势上,阿里云还对训练场景和推理场景,结合阿里云的网络和异构计算架构作了优化。根据阿里云弹性人工智能负责人游亮现场分享,不同案例中、不同节点数下,使用飞天AI训练加速器有2-14倍的性能提升,推理则有2.5-6.1倍的提升。

飞天AI加速解决方案还是业界首次实现统一支持Tensorflow、PyTorch、MXNET、Caffe等主流开源框架,实现了通过统一加速模式,支持大部分客户AI训练和推理场景性能翻倍提升的效果,大幅提升AI场景的计算效率和GPU利用率。

阿里云容器服务,为数据科学提供更简单体验

除了以上创新产品和拳头产品,阿里云高级技术专家车漾和谢峰还现场介绍与演示了如何在阿里云容器服务中使用GPU。

在数据科学场景,科学家常借助RAPIDS和Tensorflow等深度学习框架使用GPU来,加速数据预处理、机器学习训练、预测等整个流程。然而,这些框架部署较为复杂,容器服务可以保证实验环境的标准化等,降低部署难度,容器管理平台Kubernetes则尝试让部署容器化的应用简单并且高效。

可是这也提高了数据科学家的学习门槛。对于一个大规模的数据科学任务,除了数据科学算法以外,数据科学家还需要关注他们并不擅长的软件部署、资源分配与调度、任务管理与监控等。

阿里云将弹性GPU服务与基于阿里云容器服务(ACK)深度结合,面向机器学习场景提供了专门的解决方案,屏蔽所有底层资源、环境管理、任务调度和GPU分配的复杂性,同时兼容RAPIDS、Tensorflow、Caffe、MPI、Hovorod和 Pytorch等多种机器学习框架,提供数据科学家最熟悉的使用体验。

谢峰还提到,未来将对RAPIDS做专门优化,使其在云上数据处理效率更高。

相关实践学习
Docker镜像管理快速入门
本教程将介绍如何使用Docker构建镜像,并通过阿里云镜像服务分发到ECS服务器,运行该镜像。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
4月前
电子好书发您分享《阿里云可观测技术峰会演讲实录合辑(下)》
电子好书发您分享《阿里云可观测技术峰会演讲实录合辑(下)》
114 1
|
4月前
电子好书发您分享《2022阿里云生命科学与智能计算峰会演讲合集》
电子好书发您分享《2022阿里云生命科学与智能计算峰会演讲合集》
34 7
|
3月前
电子好书发您分享《2022阿里云生命科学与智能计算峰会演讲合集》
电子好书发您分享《2022阿里云生命科学与智能计算峰会演讲合集》
39 1
|
4月前
电子好书发您分享《阿里云可观测技术峰会演讲实录合辑(上)》
电子好书发您分享《阿里云可观测技术峰会演讲实录合辑(上)》
119 2
|
7月前
|
Cloud Native 关系型数据库 分布式数据库
阿里云亮相数据库顶会VLDB 2023特邀主旨演讲:云数据库要像乐高积木一样好用
阿里云数据库再获国际顶会肯定!17篇论文入选VLDB刷新纪录
|
11月前
|
自然语言处理 运维 监控
《2021 阿里云可观测技术峰会演讲实录合辑(下)》——一、 基于OPLG从0到1构建统一可观测平台实践【上】
《2021 阿里云可观测技术峰会演讲实录合辑(下)》——一、 基于OPLG从0到1构建统一可观测平台实践【上】
141 0
《2021 阿里云可观测技术峰会演讲实录合辑(下)》——一、	基于OPLG从0到1构建统一可观测平台实践【上】
|
11月前
|
存储 数据采集 边缘计算
《2021 阿里云可观测技术峰会演讲实录合辑(下)》——一、 基于OPLG从0到1构建统一可观测平台实践【下】
《2021 阿里云可观测技术峰会演讲实录合辑(下)》——一、 基于OPLG从0到1构建统一可观测平台实践【下】
111 0
|
11月前
|
监控 Java
《2021 阿里云可观测技术峰会演讲实录合辑(下)》——一、基于OPLG从0到1构建统一可观测平台实践——场景实践1:如何基于OpenTemeletry和ARMS实现全链路的追踪和应用诊断【上】
《2021 阿里云可观测技术峰会演讲实录合辑(下)》——一、基于OPLG从0到1构建统一可观测平台实践——场景实践1:如何基于OpenTemeletry和ARMS实现全链路的追踪和应用诊断【上】
386 0
|
11月前
|
Arthas 缓存 Prometheus
《2021 阿里云可观测技术峰会演讲实录合辑(下)》——一、基于OPLG从0到1构建统一可观测平台实践——场景实践1:如何基于OpenTemeletry和ARMS实现全链路的追踪和应用诊断【下】
《2021 阿里云可观测技术峰会演讲实录合辑(下)》——一、基于OPLG从0到1构建统一可观测平台实践——场景实践1:如何基于OpenTemeletry和ARMS实现全链路的追踪和应用诊断【下】
454 0
|
11月前
|
弹性计算 Prometheus 监控
《2021 阿里云可观测技术峰会演讲实录合辑(下)》——一、基于OPLG从0到1构建统一可观测平台实践——场景实践2:如何基于Prometheus和Grafana做统一的监控和告警
《2021 阿里云可观测技术峰会演讲实录合辑(下)》——一、基于OPLG从0到1构建统一可观测平台实践——场景实践2:如何基于Prometheus和Grafana做统一的监控和告警
230 0