华为计算战略揭晓:开放鲲鹏主板,推出开发套件,发布系列最强算力AI计算产品

简介: 华为在 HC 大会上发布的「全球最快 AI 训练集群」Atlas 900 引起了人们广泛关注。这仅仅是华为智能计算在全联接大会上新产品发布的开始,华为昨天推出的鲲鹏服务器主板、鲲鹏台式机主板,以及全球最强 AI 训练卡 Atlas 300、AI 训练服务器 Atlas 800 等产品,让我们再次见证了这家公司的研发实力。

为了促进计算产业的发展和生态建设,华为宣布了服务器操作系统开源计划 (openEuler),将自身在服务器领域的技术积累全部开源。而在硬件方面,华为这次一并发布了 Atlas 800 AI 训练服务器、Atlas 300 AI 训练卡,以及服务器和 PC 主板等设备。今天,华为还宣布推出鲲鹏开发套件。


这一系列的产品,旨在践行华为刚刚发布的最新蓝图:9 月 18 日,华为首次发布了面向智能计算产业的系统战略,其中包括架构创新、发展面向全场景的处理器、有所为,有所不为的商业策略、以及构建开放生态的布局。

服务器操作系统开源计划 (openEuler)


华为又开源了一个操作系统:昨天首先推出的是开源服务器操作系统 openEuler,它包含了华为在服务器操作系统领域的大量技术积累。对此,华为 Cloud & AI 产品与服务总裁侯金龙在会上向我们进行了介绍。


微信图片_20211202001540.jpg


华为表示,openEuler 基于此前华为内部使用的服务器操作系统,已有近 10 年的技术积累,并广泛地被应用在华为内部的产品配套中。华为基于对鲲鹏处理器的理解,在性能、可靠性、安全性等方面对操作系统进行了深度优化。优化后时延、性能大幅提升,例如:部分场景多进程并发时延缩短 60 %,Web 服务器性能提升 137% 等。


华为开源服务器操作系统对鲲鹏的优化,筹建 openEuler 开源社区是希望使能合作伙伴发展自有品牌操作系统,促进鲲鹏生态建设。侯金龙还表示,在 openEuler 开源社区,未来还会支持更多架构处理器。


openEuler 内核源于 Linux,为了更好地发挥鲲鹏的性能,华为服务器操作系统在编译系统、虚拟存储系统、CPU 调度、IO 驱动、网络和文件系统等方面做了大量的优化。


微信图片_20211202001543.jpg


openEuler 将是一款开源的操作系统。华为表示,openEuler 将会成为一种由全球开源贡献者构建的高效、稳定、安全的开源操作系统,广泛应用于数据库、大数据、云计算、人工智能等场景。


鲲鹏主板:发展硬件架构生态


除了开源的操作系统,华为还有开放的硬件。在大会上,华为首次开放了鲲鹏系列主板,其中包括服务器主板和台式机(PC)主板,它们已经向合作伙伴全面开放。


鲲鹏主板搭载两颗鲲鹏处理器,其中包括 128 个物理核心。另外,这块主板上包含 32 个内存插槽,内置 100GE RoCE,支持目前最快的 PCIe 4.0 接口。华为的合作伙伴可基于鲲鹏主板和整机参考设计,快速开发出自有品牌的服务器和台式机产品。
「鲲鹏处理器是业界首个推出内置直出 100GE 网络能力的通用处理器,我们希望在未来能够让 100GE 成为服务器的标准配置。」华为智能计算业务部总裁马海旭表示。

微信图片_20211202001548.jpg

在 HC 2019 大会上,华为智能计算业务部总裁马海旭宣布了鲲鹏主板全面开放。


鲲鹏主板的开放主要是为了推动鲲鹏计算产业生态。「鲲鹏主板搭载了计算产业所有同事们的梦想,」马海旭表示。「华为将鲲鹏主板全面开放,优先支持合作伙伴基于鲲鹏主板开发更多的最强算力产品,这会给客户带来更多、更好的选择。」


华为认为,经由自身 30 多年的研发,与各类硬件主板累计超过 10 亿块的制造经验,鲲鹏主板可以 100% 地释放整机算力。


鲲鹏主板具备业界领先的 56G 高速 SerDes 能力,其信号误码率低于 10 的负 12 次方,故障率相较业界平均水平低 15%。另一方面,通过华为创新的 DEMT 动态节能技术,鲲鹏可以实现能效比领先业界 15% 以上。


微信图片_20211202001551.jpg


这一次,华为为鲲鹏主板内置了 BMC 芯片和 BIOS 软件,还将开放主板接口规范和设备管理规范。为了提升整理设计效率和质量,华为还会提供机箱,供电,散热,背板等参考设计。


在发布会上,清华同方也宣布推出了基于鲲鹏主板的 PC 台式机。
首次发布鲲鹏开发套件
为了支持开发者在鲲鹏计算平台上高效地进行软件开发和迁移,今天华为还发布了鲲鹏开发套件,其中包含编译器、工具等四个组件,为开发者提供云上软件开发平台。


微信图片_20211202001554.jpg


华为智能计算 TaiShan & Atlas 领域总经理张熙伟表示:「鲲鹏生态发展进入快车道,在过去的 9 个月内,华为携手合作伙伴共同完成了超过 3000 个行业应用向鲲鹏生态的迁移。鲲鹏使能开发者,为每行代码注入改变世界的算力」。


华为表示,鲲鹏将持续提供先进算力支持,其具有四大优势:


  • 「端边云算力同构」优势,打破数据中心与边缘、终端的界限,为开发者提供统一架构的计算平台。
  • 多核高并发的计算优势,满足大数据、分布式存储、数据库等场景的算力需求,引领 IT 架构分布式转型趋势。
  • 通过鲲鹏+昇腾的协同优势,灵活向 AI 算力扩展,满足 5G、AI、自动驾驶等新技术对多样性算力需求。
  • 鲲鹏五级算力加速技术,通过迭代编译、NUMA-aware、消息队列硬加速、函数加速库、内核调度自优化,实现程序性能提升 50%。


本次大会发布的华为鲲鹏开发套件包含编译器和三个工具。业界首创的分析扫描工具和代码移植工具实现跨计算平台的自动化应用迁移,让开发者对指令集差异无感,加速应用迁移的同时实现代码优化;性能优化工具面向开发者性能调优实战设计,通过性能可视和一键式优化,帮助开发者工作效率提升 5 倍。
现在,开发者能够在鲲鹏开发者社区一站式获取相关工具和知识库,同时华为云 DevCloud 云上软件开发平台也集成了鲲鹏开发套件,为开发者提供线上全流程软件研发工具。

基于昇腾 AI 芯片的 Atlas 算力


昨天,华为还发布了两款基于昇腾 910 AI 芯片的 Atlas 新产品:全球算力最强的 AI 训练加速卡 Atlas 300,和训练服务器 Atlas 800。


微信图片_20211202001604.jpg


从芯片、服务器到集群,华为两天来推出的新产品重新定义了智能世界的 AI 最强算力,它们也完成了 Atlas 全系列的训练和推理产品布局,可实现云边端全场景部署,加速全行业智能化。


最强 AI 训练卡 Atlas 300


微信图片_20211202001601.jpg


首先是一款为 AI 训练任务准备的加速卡。Atlas 300 训练卡可以实现 256 TFLOPS(FP16)的算力,是当前业界主流训练卡的两倍,强大的算力可令深度学习算法在训练时每秒处理的图片数据量从 965 张提升到 1802 张。


这款训练卡为双槽位设计,采用 PCIE 接口,可广泛支持目前已有的常规服务器设备。


微信图片_20211202001604.jpg


除了算力强大之外,Atlas 300 训练卡还支持 100GE RoGE 直出高速接口,可实现梯度参数和数据集并行传输,最高可以降低 70% 的梯度同步时延,可将集群训练时间缩短到秒级。


Atlas 800:业界最强 AI 服务器


AI 训练服务器 Atlas 800 则是一种更为专用化的设备,其在 4U 的空间里集成了 8 块昇腾 910 AI 芯片,可以提供 2P FLOPS 的算力,其密度是业界同类产品的 2.5 倍。 

微信图片_20211202001607.jpg


相比于很多公司已经推出的 AI 推理芯片,训练芯片的能力更能体现 AI 的最强算力。华为在今年 8 月推出的昇腾 910 训练芯片基于达芬奇架构,内置了 32 个 3D Cube 计算引擎,单引擎能够在一个时钟周期内完成 4096 次乘加运算。算力高达 256T FLOPS。


「Atlas 800 的重量为 75 公斤,不到业界同类产品的一半,」马海旭介绍道。「它内置 32 个硬件解码器,每秒可以完成一万六千张 1080p 图片的解码,是业界主流产品处理能力的 25 倍,而且这些工作负载可以和训练并行,同时处理。」


为了实现更高的算力,Atlas 服务器支持风冷和液冷两种散热方式。目前在华为的松山湖数据中心里,这家公司已经部署了全液冷版本的 Atlas 800。


实际上,华为在周三推出的 Atlas 900 AI 训练集群就是由 Altlas 800 AI 训练服务器组成的。华为表示,此 AI 集群内含超过 128 台 Atlas 800 服务器,用户可根据需求部署不同的数量。


通过高效率的整合,AI 训练集群 Atlas 900 成为了目前全球计算机的巅峰,其总算力达到 256P~1024P FLOPS @FP16,相当于 50 万台 PC 的计算能力。

开放生态,让智能无所不及


芯片和操作系统,一直是国内科技公司不擅长的领域。华为通过近年来的不断投入,正一步步让自身产业链延伸到核心技术区域。


微信图片_20211202001610.jpg


华为副董事长胡厚崑表示,未来五年内基于统计的计算将成为主流,其算力将占社会算力的 80% 以上,智能计算产业将会出现万亿美元级蓝海市场。在着力研发最强算力产品之外,邀请更多合作伙伴加入智能计算产业,构建繁荣的生态是发展的重要举措。


华为希望通过硬件开放和软件开源,使能广大合作伙伴,从而形成开放繁荣的生态,帮助所有人都可以打造出最强算力产品。


架构只是基础,华为还将继续打造基于鲲鹏处理器的硬实力,同时发展面向合作伙伴开放的软实力。未来,华为还将与合作伙伴们共同努力,加速商业创新与科学研究的智能化进程。

文为机器之心报道,转载请联系本公众号获得授权

相关文章
|
2月前
|
存储 人工智能 弹性计算
AI计算加速渗透、基础设施全面升级…云栖大会重磅发布全览
阿里云全面展示了全新升级后的AI Infra系列产品及能力。通过全栈优化,阿里云打造出一套稳定和高效的AI基础设施,连续训练有效时长大于99%,模型算力利用率提升20%以上。
232 27
|
1月前
|
机器学习/深度学习 存储 人工智能
AI与量子计算:推动计算科学的边界
【10月更文挑战第7天】AI与量子计算的融合,标志着计算科学进入了一个全新的时代。在这个时代里,计算能力的边界被不断拓宽,科技创新的速度不断加快。我们有理由相信,在未来的日子里,AI与量子计算将继续携手并进,共同推动计算科学向着更加智能、更加高效的方向发展。让我们期待这一天的到来,共同见证计算科学的无限可能。
|
20天前
|
人工智能 边缘计算 监控
边缘AI计算技术应用-实训解决方案
《边缘AI计算技术应用-实训解决方案》提供完整的实训体系,面向高校和科研机构的AI人才培养需求。方案包括云原生AI平台、百度AIBOX边缘计算硬件,以及8门计算机视觉实训课程与2门大模型课程。AI平台支持大规模分布式训练、超参数搜索、标注及自动化数据管理等功能,显著提升AI训练与推理效率。硬件涵盖多规格AIBOX服务器,支持多种推理算法及灵活部署。课程涵盖从计算机视觉基础到大模型微调的完整路径,通过真实商业项目实操,帮助学员掌握前沿AI技术和产业应用。
39 2
|
1月前
|
人工智能 自然语言处理 算法
AI 系统的出现与算力发展
AI系统的崛起得益于大数据积累、强大算力与先进算法的共同驱动。大数据为AI提供了丰富学习材料,促进算法优化与应用创新;算法进步则提升了图像识别和自然语言处理等领域的性能,扩展了AI的应用范围。此外,GPU、TPU等专用芯片大幅加快了模型训练速度,通过硬件创新进一步增强了AI系统的效能。未来,算法与硬件的协同优化将推动AI技术迈向更高智能水平。
60 1
|
2月前
|
存储 人工智能 弹性计算
AI计算加速渗透、基础设施全面升级…云栖大会重磅发布全览
AI计算加速渗透、基础设施全面升级…云栖大会重磅发布全览
|
2月前
|
存储 人工智能 算法
阿里云AI基础设施升级亮相,模型算力利用率提升超20%
阿里云AI基础设施升级亮相,模型算力利用率提升超20%
218 18
|
30天前
|
人工智能 算法 JavaScript
无界SaaS与AI算力算法,链接裂变万企万商万物互联
本文介绍了一种基于无界SaaS与AI算力算法的商业模式的技术实现方案,涵盖前端、后端、数据库及AI算法等关键部分。通过React.js构建用户界面,Node.js与Express搭建后端服务,MongoDB存储数据,TensorFlow实现AI功能。提供了项目结构、代码示例及部署建议,强调了安全性、可扩展性和性能优化的重要性。
|
2月前
|
人工智能 算法 数据中心
从“纸面算力”到“好用算力”,超聚变打通AI+“最后一公里”
2024年,《政府工作报告》首提“AI+”行动,推动人工智能成为新质生产力引擎。市场层面,AI+正深刻变革金融、医疗、制造等行业,但AI算力瓶颈依然存在。在2024年中国算力大会上,超聚变等企业探讨了算力的绿色化和效能提升。超聚变推出的FusionPoD for AI全液冷服务器,显著降低能耗并提升算力效能,其FusionOne AI解决方案也加速了AI在各行业的落地。这些创新将重塑算力格局,推动智能革命。
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
2024年,AI大模型在软件开发领域的应用正重塑传统流程,从自动化编码、智能协作到代码审查和测试,显著提升了开发效率和代码质量。然而,技术挑战、伦理安全及模型可解释性等问题仍需解决。未来,AI将继续推动软件开发向更高效、智能化方向发展。