12月17-19日,英伟达(NVIDIA)的GPU技术大会(GTC 2019)在苏州金鸡湖国际会议中心举办。
作为异构计算主要的加速器,GPU已经被广泛用户图形图像、深度学习与人工智能、科学计算。
作为最大的人工智能和深度学习大会之一,GTC大会影响力越来越大,今年也是人头攒动。英伟达创始人黄仁勋在演讲中介绍,今年注册GTC的人数高达6100人,想比三年前增幅达250%,为史上最大的GTC China会议。
在这场盛会中,阿里云团队受邀出席作分享,还在开发者之夜演示如何利用阿里云的GPU工具+开放平台,花了几块钱,就在1小时做出手势识别AI小程序。
阿里云异构计算和容器服务四位技术专家介绍了阿里云和英伟达共同研发的国内首个轻量级GPU实例VGN5i、飞天AI加速解决方案,以及如何在阿里云容器服务中使用CPU加速大数据处理。
为5G潜力场景云游戏铺路
阿里云异构计算技术专家高峰指出,5G时代即将到来,云游戏可能会迎来大爆发。在带宽不再成为限制的前提下,用户即便用配置不高的终端设备,也能玩大型游戏。这将是GPU未来的重要应用场景。
然而,传统的GPU虚拟化技术设备直通模式下,每个GPU只能提供给一台虚拟机。可在云游戏场景中,企业通常仅需要一颗物理GPU几分之一的计算能力即可流畅完成图形或视觉计算;深度学习推理场景亦然,可能只需要训练阶段的数十分之一的GPU计算资源,甚至更少。这就导致“计算资源过剩”。
针对这种场景,阿里云和英伟达共同研发了国内首个公共云上的轻量级GPU异构计算产品——VGN5i实例,该实例打破了传统直通模式的局限,可以提供比单颗物理GPU更细粒度的服务,让客户以更低成本、更高弹性开展业务。
该产品基于NVIDIA Tesla P4 GPU,集成了阿里云智能资源调度技术,适用于云游戏、AR/VR以及图形处理等GPU计算场景。
高峰介绍,该款产品从硬件级别实现资源隔离,可以让每个用户独享为其分配的显存,并做到虚拟机级别的安全隔离。此外,常规GPU实例无法通过在线迁移来保障业务连续性,该款实例能实现秒级别的热迁移。
今年云栖大会,阿里云还发布了基于NVIDIA T4的GPU异构计算产品VGN6i实例。
飞天AI加速解决方案
vGPU面向需要更细颗粒度GPU的场景,AI加速才是GPU目前的主要应用场景,也是阿里云异构计算业务的拳头业务。
相较于自行购买服务器,客户在云上进行AI训练和推理业务,可以更为省时省力,业务触发时才购买GPU实例资源,训练和推理任务结束时,自动释放/停止GPU实例资源。该弹性优势在应用的推理场景中尤为突出。
在云原有优势上,阿里云还对训练场景和推理场景,结合阿里云的网络和异构计算架构作了优化。根据阿里云弹性人工智能负责人游亮现场分享,不同案例中、不同节点数下,使用飞天AI训练加速器有2-14倍的性能提升,推理则有2.5-6.1倍的提升。
飞天AI加速解决方案还是业界首次实现统一支持Tensorflow、PyTorch、MXNET、Caffe等主流开源框架,实现了通过统一加速模式,支持大部分客户AI训练和推理场景性能翻倍提升的效果,大幅提升AI场景的计算效率和GPU利用率。
阿里云容器服务,为数据科学提供更简单体验
除了以上创新产品和拳头产品,阿里云高级技术专家车漾和谢峰还现场介绍与演示了如何在阿里云容器服务中使用GPU。
在数据科学场景,科学家常借助RAPIDS和Tensorflow等深度学习框架使用GPU来,加速数据预处理、机器学习训练、预测等整个流程。然而,这些框架部署较为复杂,容器服务可以保证实验环境的标准化等,降低部署难度,容器管理平台Kubernetes则尝试让部署容器化的应用简单并且高效。
可是这也提高了数据科学家的学习门槛。对于一个大规模的数据科学任务,除了数据科学算法以外,数据科学家还需要关注他们并不擅长的软件部署、资源分配与调度、任务管理与监控等。
阿里云将弹性GPU服务与基于阿里云容器服务(ACK)深度结合,面向机器学习场景提供了专门的解决方案,屏蔽所有底层资源、环境管理、任务调度和GPU分配的复杂性,同时兼容RAPIDS、Tensorflow、Caffe、MPI、Hovorod和 Pytorch等多种机器学习框架,提供数据科学家最熟悉的使用体验。
谢峰还提到,未来将对RAPIDS做专门优化,使其在云上数据处理效率更高。