GPU云服务器

首页 标签 GPU云服务器
# GPU云服务器 #
关注
7935内容
阿里开发者招聘节 | 2019阿里巴巴技术面试题集锦!参考答案已公布!
阿里巴巴资深技术专家们结合多年的工作、面试经验总结提炼而成的笔试真题这一次将陆续放出(面试题答案将在专辑分享结束后统一汇总分享)。并通过这些笔试真题开放阿里巴巴工作机会,让更多的开发者加入到阿里这个大平台。
GPU训练的快速大规模分布式扩展-GPU多机多卡Machine Learning Middleware
我们设计了GPU多机多卡middleware,使得单机版机器学习程序可以通过插入middleware较快的实现基于ASGD或MA的多机多卡训练,此前各自基于open source工具所做的独有修改都可以得以充分保留。
从踩坑到填坑|淘宝Web 3D应用与游戏开发实战
本文是淘宝前端技术专家——徐乾伟(烧鹅)分享的淘宝 Web 3D 应用与游戏开发实战,这个话题在业界被谈及得比较少。今天将会从移动、3D、游戏三种交叉的话题来和大家探讨。接下来我们一起从初试 Web 3D、使用 WebGL、工作流相关的游戏编辑器三个部分来了解吧~
浅析GPU通信技术(上)-GPUDirect P2P
1. 背景 GPU在高性能计算和深度学习加速中扮演着非常重要的角色, GPU的强大的并行计算能力,大大提升了运算性能。随着运算数据量的不断攀升,GPU间需要大量的交换数据,GPU通信性能成为了非常重要的指标。
| |
来自: 云原生
Kubeflow实战系列: 利用TFJob运行分布式TensorFlow
TensorFlow作为现在最为流行的深度学习代码库,在数据科学家中间非常流行,特别是可以明显加速训练效率的分布式训练更是杀手级的特性。但是如何真正部署和运行大规模的分布式模型训练,却成了新的挑战。
淘宝Diamond架构分析
花了两天的时间研究了下Diamond,因为写得比较急,而且并没有使用过,只是单纯的做逆向建模,所以难免会有细节缺失,后面会时不时过来看看,然后做些补充。 背景知识 早期的应用都是单体的,配置修改后,只要通过预留的管理界面刷新reload即可。后来,应用开始拆分,从单一系统拆分成多个子系统,每个子系统还会对应多个运行实例,就开始面临一些问题: 1. 配置分散在多个业务
| |
来自: 云原生
Kubeflow实战系列:阿里云上小试TFJob
`tf-operator`是Kubeflow的第一个CRD实现,解决的是TensorFlow模型训练的问题,它提供了广泛的灵活性和可配置,可以与阿里云上的NAS,OSS无缝集成,并且提供了简单的UI查看训练的历史记录。
免费试用