浪潮发布GPU 深度学习一体机,大幅提升性能及生产力

简介:

美国当地时间11月16日,在盐湖城举行的全球超算大会SC16上,浪潮发布了深度学习一体机D1000,该产品部署了采用NVIDIA® Tesla™ GPU技术的浪潮高性能计算集群,运行多节点并行深度学习框架Caffe-MPI,可大幅提升在人脸识别、图片分类、物体识别等应用场景的深度学习计算性能,并有效提高用户在实际业务使用深度学习的生产力。

浪潮发布GPU 深度学习一体机,大幅提升性能及生产力 

强强联手产硕果

D1000产品整合了浪潮深度学习领域的最新技术成果,包括浪潮推动开发的并行版开源深度学习框架Caffe-MPI,英伟达专为深度学习定制的Tesla GPU及CuDNN库。浪潮展示了6节点的D1000产品方案,该方案的节点是浪潮专为深度学习开发的专用GPU服务器,每个节点配置2颗处理器及4块NVIDIA® Tesla™ M40 GPU。

浪潮发布GPU 深度学习一体机,大幅提升性能及生产力 

浪潮集团海外总部副总经理Jay Zhang现场讲解

浪潮集团海外总部副总经理Jay Zhang表示,D1000在性能、扩展性等方面都大幅领先于以往的深度学习方案,可以满足大部分客户的应用需求。浪潮一直在加强深度学习前沿技术开发并致力于构建良好的生态系统,并联合NVIDIA等业界领先技术伙伴,将最新的技术整合为产品方案,转化为用户的实际应用价值。

浪潮发布GPU 深度学习一体机,大幅提升性能及生产力 

Nvidia解决方案和工程架构副总裁 Marc Hamilton演讲

高性能深度学习框架Caffe-MPI 

   Caffe-MPI是浪潮团队推动开发并开源发布的集群版Caffe,这使得Caffe这一业界最重要的深度学习框架实现了高效多节点并行。Caffe-MPI不仅在单机多GPU方案中表现出高效的训练性能,而且支持分布式集群扩展。浪潮展示了6节点D1000产品方案在配置24块Tesla M40 GPU,并部署Caffe-MPI,训练GoogLeNet(Inception V1)网络,每秒可以处理2000张图片,在短短18小时内将GoogLeNet网络的精确度提高至78%。随着训练时间的增加,Caffe-MPI的正确率将进一步提升。此外,Caffe-MPI具有较高的可扩展性,其节点的扩展效率达到72%,并且Caffe-MPI完全保留了原始Caffe架构的特性,纯粹的C++/CUDA架构,支持命令行、Python和MATLAB接口等多种编程方式,上手快,十分易用。

浪潮发布GPU 深度学习一体机,大幅提升性能及生产力 

D1000发布现场

让用户专注于业务应用

深度学习正在重新定义什么叫可能性,从初创时期的公司到大型互联网运营商,都在努力把深度学习融入实际业务中来拓展商业边界。Jay Zhang表示,浪潮为客户提供的是开箱即用的深度学习解决方案以及全程贴心服务,把用户从平台部署配置优化等繁琐工作中解放出来。

 浪潮发布GPU 深度学习一体机,大幅提升性能及生产力

SC16现场吸睛的浪潮产品与方案

据了解,D1000统一整合了经过优化设计的浪潮高性能计算集群硬件、Caffe-MPI并行计算框架和依赖库、经过充分测试验证的OS和CUDA环境及集群管理调度平台 ClusterEngine,产品实现在产线进行软硬件一体化安装、配置,用户打开D1000即可使用Caffe-MPI进行深度学习业务应用。


原文发布时间为: 2016年11月17日

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
9月前
|
存储 并行计算 调度
迈向可编程观测:在GPU Kernel中构建类eBPF风格的性能探针
本文旨在梳理作者学习路径,带领读者共同探索 GPU Kernel 性能分析从宏观到微观的技术演进。
1193 24
迈向可编程观测:在GPU Kernel中构建类eBPF风格的性能探针
|
10月前
|
存储 机器学习/深度学习 人工智能
GPU云存储性能:加速AI与高性能计算的关键
在人工智能(AI)、机器学习(ML)和高性能计算(HPC)飞速发展的今天,数据存储和处理的效率已成为决定项目成败的关键因素。传统的云存储方案往往无法满足GPU密集型工作负载的需求,而GPU云存储性能的优化正成为企业提升计算效率、降低延迟的核心突破口。本文将深入探讨GPU云存储性能的重要性、关键技术及优化策略,助您在数据驱动的竞争中占据先机。
|
机器学习/深度学习 数据采集 自然语言处理
深度学习实践技巧:提升模型性能的详尽指南
深度学习模型在图像分类、自然语言处理、时间序列分析等多个领域都表现出了卓越的性能,但在实际应用中,为了使模型达到最佳效果,常规的标准流程往往不足。本文提供了多种深度学习实践技巧,包括数据预处理、模型设计优化、训练策略和评价与调参等方面的详细操作和代码示例,希望能够为应用实战提供有效的指导和支持。
1002 0
|
机器学习/深度学习 人工智能 TensorFlow
人工智能浪潮下的自我修养:从Python编程入门到深度学习实践
【10月更文挑战第39天】本文旨在为初学者提供一条清晰的道路,从Python基础语法的掌握到深度学习领域的探索。我们将通过简明扼要的语言和实际代码示例,引导读者逐步构建起对人工智能技术的理解和应用能力。文章不仅涵盖Python编程的基础,还将深入探讨深度学习的核心概念、工具和实战技巧,帮助读者在AI的浪潮中找到自己的位置。
|
机器学习/深度学习 存储 人工智能
阿里云GPU服务器gn6v、gn7i、gn6i性能特点、区别及选择参考
阿里云GPU云服务器产品线凭借其强大的计算能力和广泛的应用价值,在这些领域中发挥着举足轻重的作用。阿里云GPU云服务器能够为各类复杂的计算任务提供高效、稳定的计算支持,助力企业和开发者在技术创新和业务拓展的道路上加速前行。本文将详细介绍阿里云GPU云服务器中的gn6v、gn7i、gn6i三个实例规格族的性能特点、区别及选择参考,帮助用户根据自身需求选择合适的GPU云服务器实例。
1379 60
|
缓存 算法 测试技术
|
机器学习/深度学习 人工智能 算法
深度学习用于求解车间调度问题,性能如何呢?
基于深度学习来求解车间调度问题,不仅求解速度快,求解的质量也越来越好
756 24
|
测试技术 异构计算
|
人工智能 负载均衡 调度
COMET:字节跳动开源MoE训练加速神器,单层1.96倍性能提升,节省百万GPU小时
COMET是字节跳动推出的针对Mixture-of-Experts(MoE)模型的优化系统,通过细粒度的计算-通信重叠技术,显著提升分布式训练效率,支持多种并行策略和大规模集群部署。
975 9
|
机器学习/深度学习 算法框架/工具 网络架构
深度学习中的正则化技术及其对模型性能的影响
本文深入探讨了深度学习领域中正则化技术的重要性,通过分析L1、L2以及Dropout等常见正则化方法,揭示了它们如何帮助防止过拟合,提升模型的泛化能力。文章还讨论了正则化在不同类型的神经网络中的应用,并指出了选择合适正则化策略的关键因素。通过实例和代码片段,本文旨在为读者提供关于如何在实际问题中有效应用正则化技术的深刻见解。

热门文章

最新文章