华为发布全球最快AI训练集群Atlas900,训练ResNet50仅需59.8秒,昇腾910加持

简介: 在 8 月华为最强 AI 芯片昇腾 910 正式发布之后,今天,华为在全联接大会上发布了全新的整体计算战略,并正式推出了基于最新 AI 芯片的服务器 Atlas 900。

华为总裁任正非在最近接受采访时曾表示,华为即将发布全世界最快的人工智能平台。在今天的全联接大会上,华为揭幕了这款 AI 训练集群 Atlas 900:它成为了目前全球计算机的巅峰,其总算力达到 256P~1024P FLOPS @FP16,相当于 50 万台 PC 的计算能力。


「特别感谢在这个关键时刻大家对于华为的支持,」华为副董事长胡厚崑在发布会上表示。「感谢大家的关心,在这里我也向大家报告一下,华为的状态确实还不错。就像今天早上上海的天气一样,秋高气爽,云淡风轻。


微信图片_20211201235549.jpg


全球训练最快的 AI 集群 Atlas900


华为今天推出的 Atlas 900 可谓目前最强的 AI 计算机集群,它由 1024 块昇腾 910 芯片组成,后者可谓目前业界单芯片算力最强,的处理器。每块昇腾 910 AI 处理器内置 32 个达芬奇 AI Core,单芯片可以提供比业界高出一倍的算力(256TFLOPS@FP16)。


微信图片_20211201235554.jpg


为了充分发挥 AI 芯片的能力,Atlas 900 AI 训练集群采用「HCCS、 PCIe 4.0、100G 以太」三类高速互联方式,实现了百 TB 级的全互联无阻塞专属参数同步网络,梯度同步时延可缩短 10~70%。


在 AI 服务器内部,昇腾 910 AI 处理器之间通过 HCCS 高速总线互联;昇腾 910 AI 处理器和 CPU 之间以最新的 PCIe 4.0(速率 16Gb/s)技术互联,其速率是业界主流采用的 PCIe 3.0(8.0Gb/s)技术的两倍,使得数据传输更加快速和高效。在集群层面,采用面向数据中心的 CloudEngine 8800 系列交换机,提供单端口 100Gbps 的交换速率,将集群内的所有 AI 服务器接入高速交换网络。


华为表示,在 AI 服务器内部,昇腾 910 AI 处理器之间通过 HCCS 高速总线互联;昇腾 910 AI 处理器和 CPU 之间则以最新的 PCIe 4.0(速率 16Gb/s)技术互联,其速率是业界主流采用的 PCIe 3.0(8.0Gb/s)技术的两倍。


微信图片_20211201235604.png


胡厚崑表示,使用 Atlas 900,人们只需 59.8 秒就可以完成典型神经网络 ResNet-50 在 ImageNet 数据集上的训练,在同等精度下比第 2 名快 15%。「这相当于在短跑赛场上头名撞线,然后喝完一瓶水才看到第二名跑到终点。」


微信图片_20211201235608.gif


Atlas900 的强大算力,可广泛应用于科学研究与商业创新,比如天文探索、气象预测、自动驾驶、石油勘探等领域。在现场,华为展示了在天文领域上的应用。在与上海天文台、SKA 合作的项目中,科学家们使用 Atlas 900 高达 256P FLOPS 的集群算力,仅需 10.02 秒即计算了 20 万颗星体的扫描,同时可以准确地对某一类星体进行定位,如果人类进行这项工作的话,需要 169 天时间。


华为表示:「在 Atlas 900 出现之后,一切计算瓶颈都会消失。」


基于 Atlas 900 的超强算力,华为云今天也发布基于昇腾的华为云 EI 集群服务,现在人们已可以注册并开始使用。


华为认为,未来计算的主流将是机器学习。「未来基于统计的计算可以帮助我们更好地解决没有固定规则定义的问题,」胡厚崑说道。「这一类计算奠定了今天人工智能突破发展的基础,在未来将会逐步成为计算的主流。我们认为,在未来的五年时间里,基于统计的计算消耗的算力有可能会占到整个社会算力消耗的 80% 以上。」


2 万亿计算产业新蓝海


华为认为,未来的云计算领域将会出现新的巨大市场。据 Gardner 预测,2023 年全球计算产业总空间将会达到 2 万亿美元,其中包括企业 IT 的软件、硬件、云服务等。


如此发展空间正在推动华为不断加码投入。去年,华为提出了全场景战略。在今天的 HC 大会上,华为进一步介绍了自己的整体计算战略,其将从四个方面来布局:


  • 架构创新。投资基础研究,打造出了达芬奇架构,重点解决全场景智能的架构问题。
  • 投资全场景处理器。包括面向通用计算的鲲鹏系列,面向 AI 的昇腾系列,面向智能终端的麒麟系列,以及面向智慧屏的鸿鹄系列,将来还有一系列处理器,面向更多的场景。
  • 商业策略。华为处理器不直接对外销售,以云服务和部件为主面向客户,优先支持合作伙伴发展整机。
  • 构建开放生态。重点推进沃土计划 2.0,使能全球合作伙伴发展应用及解决方案。


「我们认为,未来的十年会是整个计算产业新黄金十年,计算产业会出现巨大的新蓝海,」胡厚崑表示。「五年之内,全球将会出现每年高达两万亿美元的市场。因此华为将向计算产业进行大量投入。」


微信图片_20211201235611.jpg


2015 年,华为首次发布了沃土计划。在过去的四年中,华为已经发展了 130 多万开发者。在今天的发布会上,华为表示沃土计划在今年将继续投入 15 亿美元,使开发者的规模扩大到 500 万人。


华为不仅自研了鲲鹏、昇腾系列芯片,更围绕硬件打造了完整了配套体系。在今年初发布会上,华为同步推出三款搭载鲲鹏芯片的「泰山」系列服务器,分别定位均衡、存储以及高密度应用领域,表明了华为对于进军云服务市场的决心。在今天的发布会上,华为表示未来会进一步发布主板、服务器、操作系统、编译器和数据库等产品。


此外,为保证鲲鹏芯片在市场上实际落地,华为为鲲鹏打造了鲲鹏软件栈,并提供配套的指导服务,覆盖操作系统、中间件、web、大数据、数据库等业务类软件,管理和监控、应用工具等运维类软件,以及开发工具、编译工具等开发类软件。


微信图片_20211201235614.jpg


目前,华为已具备从服务器、中间件、基础云服务到企业智能云的全栈式产品序列。在短短一年中,华为几乎完成了在计算产业的全方位布局。


在应用上,华为与合作伙伴的鲲鹏产业生态基地目前已落地北京、上海、重庆、深圳、成都等城市。在未来,基于鲲鹏处理器的系列产品、解决方案和服务,将投向全球市场,在其他国家和地区逐步上市。


鲲鹏系列芯片在 ARM 架构服务器上的探索或许可以改变目前 x86 一家独大的情况——作为和移动设备类似的计算架构,ARM 服务器可向云手机、异构计算等任务和应用提供更好支持,对很多面向 C 端用户的业务,以及未来由 5G 衍生出的新类型业务提供了支撑。



9 月 26 日,DataFun Live 第 9 期邀请到美图高级算法专家陈文强,分享主题为「深度学习在美图个性化推荐的应用实践」。识别二维码或点击阅读原文,立即报名观看直播。


微信图片_20211201235618.jpg

相关文章
|
3月前
|
JSON 人工智能 数据格式
AI计算机视觉笔记二十六:YOLOV8自训练关键点检测
本文档详细记录了使用YOLOv8训练关键点检测模型的过程。首先通过清华源安装YOLOv8,并验证安装。接着通过示例权重文件与测试图片`bus.jpg`演示预测流程。为准备训练数据,文档介绍了如何使用`labelme`标注工具进行关键点标注,并提供了一个Python脚本`labelme2yolo.py`将标注结果从JSON格式转换为YOLO所需的TXT格式。随后,通过Jupyter Notebook可视化标注结果确保准确性。最后,文档展示了如何组织数据集目录结构,并提供了训练与测试代码示例,包括配置文件`smoke.yaml`及训练脚本`train.py`,帮助读者完成自定义模型的训练与评估。
|
13天前
|
机器学习/深度学习 存储 人工智能
【AI系统】感知量化训练 QAT
本文介绍感知量化训练(QAT)流程,旨在减少神经网络从FP32量化至INT8时的精度损失。通过在模型中插入伪量化节点(FakeQuant)模拟量化误差,并在训练中最小化这些误差,使模型适应量化环境。文章还探讨了伪量化节点的作用、正向与反向传播处理、TensorRT中的QAT模型高效推理,以及QAT与PTQ的对比,提供了实践技巧,如从良好校准的PTQ模型开始、采用余弦退火学习率计划等。
51 2
【AI系统】感知量化训练 QAT
|
13天前
|
机器学习/深度学习 存储 人工智能
【AI系统】训练后量化与部署
本文详细介绍了训练后量化技术,涵盖动态和静态量化方法,旨在将模型权重和激活从浮点数转换为整数,以优化模型大小和推理速度。通过KL散度等校准方法和量化粒度控制,文章探讨了如何平衡模型精度与性能,同时提供了端侧量化推理部署的具体实现步骤和技术技巧。
39 1
【AI系统】训练后量化与部署
|
12天前
|
人工智能 PyTorch 测试技术
【AI系统】并行训练基本介绍
分布式训练通过将任务分配至多个节点,显著提升模型训练效率与精度。本文聚焦PyTorch2.0中的分布式训练技术,涵盖数据并行、模型并行及混合并行等策略,以及DDP、RPC等核心组件的应用,旨在帮助开发者针对不同场景选择最合适的训练方式,实现高效的大模型训练。
47 8
|
16天前
|
人工智能 自然语言处理 文字识别
让AI像人类一样操作手机,华为也做出来了
华为诺亚方舟实验室研发的LiMAC系统,通过轻量级Transformer网络和微调的视觉-语言模型,实现了高效、准确的Android应用交互与控制。该系统在多个公开数据集上展现出卓越性能,提升了任务执行速度与准确性,同时具备良好的灵活性,但需大量训练数据支持。
38 8
|
16天前
|
机器学习/深度学习 人工智能 API
【AI系统】昇腾异构计算架构 CANN
本文介绍了昇腾 AI 异构计算架构 CANN,涵盖硬件层面的达·芬奇架构和软件层面的全栈支持,旨在提供高性能神经网络计算所需的硬件基础和软件环境。通过多层级架构,CANN 实现了高效的 AI 应用开发与性能优化,支持多种主流 AI 框架,并提供丰富的开发工具和接口,助力开发者快速构建和优化神经网络模型。
36 1
|
22天前
|
存储 人工智能 编译器
【AI系统】昇腾数据布局转换
华为昇腾NPU采用独特的NC1HWC0五维数据格式,旨在优化AI处理器的矩阵乘法运算和访存效率。此格式通过将C维度分割为C1份C0,适应达芬奇架构的高效计算需求,支持FP16和INT8数据类型。此外,昇腾还引入了NZ分形格式,进一步提升数据搬运和矩阵计算效率。AI编译器通过智能布局转换,确保在不同硬件上达到最优性能。
45 3
|
22天前
|
存储 机器学习/深度学习 人工智能
【AI系统】昇腾 AI 核心单元
本文深入解析了华为昇腾AI处理器的核心——AI Core及其达芬奇架构。AI Core采用特定域架构(DSA),专为深度学习算法优化,通过矩阵、向量和标量计算单元的高效协作,实现了对深度学习算法的加速。文章详细介绍了AI Core的计算单元、存储系统及控制单元的设计,展示了其如何通过优化数据通路和控制流程,显著提升计算性能。
46 3
|
22天前
|
存储 机器学习/深度学习 人工智能
【AI系统】昇腾 AI 处理器
本文介绍华为昇腾AI处理器的架构与卷积加速原理,基于达芬奇架构设计,支持云边端一体化解决方案,具备高能效比和强大的3D Cube矩阵计算单元。文章详细解析了昇腾AI处理器的核心组件及其高效的数据处理机制,旨在通过软硬件优化实现高效的卷积计算加速。
61 2
|
22天前
|
人工智能 atlas 开发工具
【AI系统】昇腾 AI 架构介绍
昇腾计算产业基于华为昇腾系列处理器,涵盖硬件、基础软件、应用使能等,构建全栈AI计算基础设施。华为通过开放硬件、开源软件,支持多框架,推动AI技术在端、边、云的广泛应用,促进AI产业生态繁荣。
46 1

热门文章

最新文章

下一篇
DataWorks