机器学习工具、平台汇总
1. 平台和系统
TensorFlow — TensorFlow 是谷歌的第二代机器学习系统,内建深度学习的扩展支持,任何能够用计算流图形来表达的计算,都可以使用 TensorFlow
PaddlePaddle — 百度研发的深度学习平台,具有易用,高效,灵活和可伸缩等特点,为百度内部多项产品提供深度学习算法支持
Apache SINGA — SINGA 是基于大型数据集训练,大型深度学习模块的常规分布式学习平台。
浅析GPU通信技术(下)-GPUDirect RDMA
目录
浅析GPU通信技术(上)-GPUDirect P2P
浅析GPU通信技术(中)-NVLink
浅析GPU通信技术(下)-GPUDirect RDMA
1. 背景
前两篇文章我们介绍的GPUDirect P2P和NVLink技术可以大大提升GPU服务器单机的GPU通信性...
浅析GPU通信技术(上)-GPUDirect P2P
1. 背景
GPU在高性能计算和深度学习加速中扮演着非常重要的角色, GPU的强大的并行计算能力,大大提升了运算性能。随着运算数据量的不断攀升,GPU间需要大量的交换数据,GPU通信性能成为了非常重要的指标。
通过阿里云容器服务深度学习解决方案上手Caffe+多GPU训练
阿里云容器服务提供的深度学习解决方案内置了对Tensorflow, Keras, MXnet框架的环境,并支持基于它们的深度学习模型开发、模型训练和模型预测。同时,对于模型训练和预测,用户还可以通过指定自定义容器镜像的方式,使用其他深度学习框架。
淘宝Diamond架构分析
花了两天的时间研究了下Diamond,因为写得比较急,而且并没有使用过,只是单纯的做逆向建模,所以难免会有细节缺失,后面会时不时过来看看,然后做些补充。
背景知识
早期的应用都是单体的,配置修改后,只要通过预留的管理界面刷新reload即可。后来,应用开始拆分,从单一系统拆分成多个子系统,每个子系统还会对应多个运行实例,就开始面临一些问题:
1. 配置分散在多个业务