浅析GPU通信技术(上)-GPUDirect P2P
1. 背景
GPU在高性能计算和深度学习加速中扮演着非常重要的角色, GPU的强大的并行计算能力,大大提升了运算性能。随着运算数据量的不断攀升,GPU间需要大量的交换数据,GPU通信性能成为了非常重要的指标。
Intel FPGA技术大会分享
9月8日,Intel FPGA技术大会(IFTD)在杭州举办,我和鹏起共同参加了这次技术大会。会上Intel对FPGA未来发展的技术路线和应用场景进行了介绍,并且给我们带来了应用在未来FPGA上的一些新技术。本文着重介绍未来的FPGA和基于FPGA的硬件平台会具有哪些新的功能和特点,以及这些功能和特点对我们互联网企业和云计算的价值。
##什么是FPGA
首先向大家介绍一些什么是FP
通过阿里云容器服务深度学习解决方案上手Caffe+多GPU训练
阿里云容器服务提供的深度学习解决方案内置了对Tensorflow, Keras, MXnet框架的环境,并支持基于它们的深度学习模型开发、模型训练和模型预测。同时,对于模型训练和预测,用户还可以通过指定自定义容器镜像的方式,使用其他深度学习框架。
Apache Spark 3.0 将内置支持 GPU 调度
如今大数据和机器学习已经有了很大的结合,在机器学习里面,因为计算迭代的时间可能会很长,开发人员一般会选择使用 GPU、FPGA 或 TPU 来加速计算。在 Apache Hadoop 3.1 版本里面已经开始内置原生支持 GPU 和 FPGA 了。
浅析GPU通信技术(中)-NVLink
1. 背景
上一篇文章《浅析GPU通信技术(上)-GPUDirect P2P》中我们提到通过GPUDirect P2P技术可以大大提升GPU服务器单机的GPU通信性能,但是受限于PCI Expresss总线协议以及拓扑结构的一些限制,无法做到更高的带宽,为了解决这个问题,NVIDIA提出了NVLink总线协议。
Kubeflow实战系列:阿里云上小试TFJob
`tf-operator`是Kubeflow的第一个CRD实现,解决的是TensorFlow模型训练的问题,它提供了广泛的灵活性和可配置,可以与阿里云上的NAS,OSS无缝集成,并且提供了简单的UI查看训练的历史记录。
全图化引擎(AI·OS)中的编译技术
全图化引擎又称算子执行引擎,它的介绍可以参考从HA3到AI OS -- 全图化引擎破茧之路。本文从算子化的视角介绍了编译技术在全图化引擎中的运用。主要内容有:
通过脚本语言扩展通用算子上的用户订制能力,目前这些通用算子包括scorer算子,filter算子等。
Keras多GPU训练指南
随着Keras(v2.0.8)最新版本的发布,使用多GPU 训练深度神经网络将变得非常容易,就跟调用函数一样简单!利用多GPU,能够获得准线性的提速。
弹性计算双周刊 第 5 期
阿里云弹性裸金属服务器(神龙)于2018年5月16日在北京举行产品发布会,再度引起行业关注热潮,技术专家狒哥作为嘉宾和大家作了精彩的分享。FPGA-F3的经典使用场景及极大简化FPGA开发部署流程的深度解析爆出干货,专有宿主机(Dedicated Host)开放测试名额申请,这是一个基于阿里云公共云虚拟化技术对ECS的另一种产品售卖形态,通过向用户出售整体物理主机的资源,提供物理独享的单租户环境。
开源工具GPU Sharing:支持Kubernetes集群细粒度
问题背景
全球主要的容器集群服务厂商的Kubernetes服务都提供了Nvidia GPU容器调度能力,但是通常都是将一个GPU卡分配给一个容器。这可以实现比较好的隔离性,确保使用GPU的应用不会被其他应用影响;对于深度学习模型训练的场景非常适合,但是如果对于模型开发和模型预测的场景就会比较浪费。