基于阿里云eRDMA的GPU实例大幅提升多机训练性能
2023年3月23日14:00(中国时间),NVIDIA GTC开发者大会,阿里云开发者社区观看入口正式开放,阿里云高级技术专家李伟男;阿里云弹性计算产品专家宋迪共同带来了题为《基于阿里云eRDMA的GPU实例大幅提升多机训练性能》的分享
在Kubernetes上使用RDMA
### RDMA
RDMA(全称RemoteDirect Memory Access) 它为了解决网络传输中服务器端数据处理的延迟而产生。
它的原理是将待传输的数据从一台计算机的内存,直接传输到另一台计算机的内存,整个传输过程无需操作系统和协议栈的介入。
阿里“去 IOE”十二年,弹性计算如何二次去 I 和 E?
云计算的本质是服务,如果不能将计算资源规模化、大范围地进行共享,如果不能真正以服务的方式提供,就根本算不上云计算。众所周知,阿里云是完全经历了从 0 到 1,再到 100 的过程,将计算发挥到极致背后有一个关键的服务,那就是弹性计算。
云原生场景中的 AI任务调度
PAI平台参加“周二开源日”活动,本期分享核心内容摘要
一、AI任务的需求与DLC
二、KubeDL
三、KubeDLPro
四、总结
QEMU&KVM-2 Live Migration
虚拟机的迁移是指把一台VM上的OS迁移到另外一台VM,两个VM可以run在不同的物理机上。
包括:Offline Migration和Live Migration。这里讲讲比较常用的Live Migration(热迁移)。
在热迁移过程中,Guest OS完全无感,其运行的任务,在快速迁移过后能继续运行。
首先,对于Guest OS从一个VM迁移到其他VM,涉及到对register配置,di