浪潮发布业界最高GPU密度的SR-AI整机柜

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,视频资源包5000点
简介:

在不久前结束的2017浪潮云数据中心全国合作伙伴大会(IPF)上,浪潮秉承坚持围绕"计算+"战略,进一步明确业务重心,聚焦智慧计算,发展开放融合的计算生态,建立智慧计算市场的领导力。

智慧计算的未来在商业应用, 随着人工智能应用的快速发展,AI所需的计算力也急剧攀升。此前,浪潮就已在AI计算平台、架构领域布局,拥有业界完整的支持2、4、8 GPU卡的异构超算服务器阵列。而本次IPF上,浪潮发布了业界最高密度的、单机点支持16块GPU卡的SR-AI整机柜,进一步优化了AI计算硬件架构,改变原有CPU-GPU紧耦合状态,实现GPU资源的灵活池化扩容。

浪潮发布业界最高GPU密度的SR-AI整机柜

人工智能成为未来社会发展重要动因

更复杂的AI应用呼唤更强大的计算平台

深度学习概念和浅层学习算法已经被提出多年,而人工智能近年才开始逐渐升温,原因是人工智能技术的进步受限于计算平台的性能和数据量的积累。举个例子,从IBM深蓝战胜卡斯帕罗夫,浪潮天梭战胜五位象棋大师,再到谷歌AlphaGo战胜围棋冠军李世石,解决问题的博弈树空间扩大了237数量级,这其中需要更优化的算法,也需要更强大的计算平台来支撑实时运算。

除了AI游戏,在现实生活中人工智能的应用也越来越广泛和复杂,从人脸签到打卡,到行动轨迹追踪,再到无人驾驶汽车,更复杂的AI应用呼唤更强大的计算平台。传统的单机单卡、2卡甚至8卡已经不能满足多样化的业务需求,浪潮SR-AI整机柜服务器以单节点16卡的更高密度,满足当下快速膨胀的AI计算能力需求。

浪潮发布业界最高GPU密度的SR-AI整机柜

SR-AI整机柜服务器

更高密度+资源解耦,10倍于传统AI计算设备性能

此次,浪潮与百度联合发布的SR-AI整机柜服务器,符合最新的天蝎2.5标准,是全球首个采用PCIe Fabric互联架构设计的AI方案,通过PCI-E交换机和GPU BOX两个模块的配合,打破GPU和CPU的物理耦合,让两者可以灵活扩展,相对于传统的GPU服务器,这是种颠覆式的创新,带来了高密度、低延迟、易扩展等优势。

首先,传统的AI计算设备集群需要通过高速网络实现数据的交互,着会带来us级以上的延迟,而SR-AI整机柜中GPU BOX间的互联是通过PCI-E交换机来实现,并借助GPUDirect RDMA技术可以大幅下降跨节点GPU间的通信延迟,能够实现ns级网络延时。

第二,SR-AI整机柜的I/O BOX单节点即可实现支持16个GPU的超大扩展,并且可以通过PCI-E交换机实现4个BOX、64块GPU的级联,峰值处理能力达到为512TFlops。

第三,SR-AI整机柜的GPU资源扩展无需同步配置高成本的IT资源(比如IB交换机),成本可优化5%以上,并随着规模上升成本优势越明显。

SR-AI整机柜是面向更大规模数据集和深层神经网络的超大规模AI计算平台,能够高效支撑复杂的深度学习线下模型训练任务,适用于图像识别、语音识别、自然语言处理、搜索排序等AI应用。百度实际业务的测试数据显示,SR-AI整机柜相比传统的AI方案性能提高5-10倍!

高效开发框架+算法协同优化,AI计算效率最大化

与 CPU 少量的逻辑运算单元相比,GPUFPGAMIC这种协处理加速设备整个就是一个庞大的计算矩阵,可实现 10-100 倍应用吞吐量。但同时,这种庞大的并行能力需要付出代价:需要较强的软件开发能力和算法优化能力。

为此,浪潮将高效深度学习框架Caffe-MPI开源,与众多开发者共同优化,为深度学习的用户提供了更便捷、更高效的应用手段。浪潮Caffe-MPI能够在保证正确率相同的情况下,在4节点下16卡的性能较单卡提升13倍,并增加了对cuDNN库的支持,使程序开发人员能够轻松实现高性能深度学习代码的开发。

在算法方面,此前浪潮与客户在GPU加速加速流量特征分析技术开展合作,通过软硬件和算法的协同优化,使训练24万样本的时间单节点4GPU相对于单GPU加速3倍,单机4GPU卡程序性能较原始版本加速270倍。

原文发布时间为:2017年5月11日


本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
存储 人工智能 Kubernetes
GPU AI 模型训练
适用于 AI 图片训练场景,使用 CPFS/NAS 作为共享存储,利用容器服务 Kubernetes 版管理 GPU 云服务器集群进行图片 AI 训练。
1116 0
GPU AI 模型训练
|
存储 人工智能 Kubernetes
GPU AI 模型训练
适用于 AI 图片训练场景,使用 CPFS/NAS 作为共享存储,利用容器服务 Kubernetes 版管 理 GPU 云服务器集群进行图片 AI 训练。
19345 0
GPU AI 模型训练
|
4天前
|
人工智能 Java API
Java也能快速搭建AI应用?一文带你玩转Spring AI可落地性
Java语言凭借其成熟的生态与解决方案,特别是通过 Spring AI 框架,正迅速成为 AI 应用开发的新选择。本文将探讨如何利用 Spring AI Alibaba 构建在线聊天 AI 应用,并实现对其性能的全面可观测性。
|
2天前
|
人工智能 边缘计算 运维
容器化浪潮下的AI赋能:智能化运维与创新应用
近年来,容器技术以其轻量、高效、可移植的特性成为云原生时代的基石,推动应用开发和部署方式革新。随着容器化应用规模扩大,传统运维手段逐渐力不从心。AI技术的引入为容器化生态带来新活力,实现智能监控、自动化故障诊断与修复及智能资源调度,提升运维效率和可靠性。同时,AI驱动容器化创新应用,如模型训练、边缘计算和Serverless AI服务,带来更多可能性。未来,AI与容器技术的融合将更加紧密,推动更智能、高效的运维平台和丰富的创新应用场景,助力数字化转型。
|
27天前
|
人工智能 自然语言处理 搜索推荐
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
125 24
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
|
22天前
|
机器学习/深度学习 存储 人工智能
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
MNN-LLM App 是阿里巴巴基于 MNN-LLM 框架开发的 Android 应用,支持多模态交互、多种主流模型选择、离线运行及性能优化。
1315 14
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
|
19天前
|
人工智能 开发框架 数据可视化
Eino:字节跳动开源基于Golang的AI应用开发框架,组件化设计助力构建AI应用
Eino 是字节跳动开源的大模型应用开发框架,帮助开发者高效构建基于大模型的 AI 应用。支持组件化设计、流式处理和可视化开发工具。
191 27
|
3天前
|
存储 人工智能 开发框架
Spring AI Alibaba 应用框架挑战赛圆满落幕,恭喜获奖选手
第二届开放原子大赛 Spring AI Alibaba 应用框架挑战赛决赛于 2 月 23 日在北京圆满落幕。
|
11天前
|
存储 人工智能 程序员
通义灵码AI程序员实战:从零构建Python记账本应用的开发全解析
本文通过开发Python记账本应用的真实案例,展示通义灵码AI程序员2.0的代码生成能力。从需求分析到功能实现、界面升级及测试覆盖,AI程序员展现了需求转化、技术选型、测试驱动和代码可维护性等核心价值。文中详细解析了如何使用Python标准库和tkinter库实现命令行及图形化界面,并生成单元测试用例,确保应用的稳定性和可维护性。尽管AI工具显著提升开发效率,但用户仍需具备编程基础以进行调试和优化。
162 9
|
17天前
|
存储 人工智能 NoSQL
Airweave:快速集成应用数据打造AI知识库的开源平台,支持多源整合和自动同步数据
Airweave 是一个开源工具,能够将应用程序的数据同步到图数据库和向量数据库中,实现智能代理检索。它支持无代码集成、多租户支持和自动同步等功能。
88 14

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等