性价比超H100,英特尔发布中国版Gaudi2 AI加速卡

简介: 性价比超H100,英特尔发布中国版Gaudi2 AI加速卡

英特尔会是国内生成式 AI 算力的更优解吗?


在大语言模型(LLM)领域,越强大的模型就越需要算力。最近有消息称,当前业界标杆 GPT-4 在训练中使用了约 2.5 万块 A100,训练时长超过 90 天

如此高门槛的生成式 AI 赛道上,各家科技公司的竞争却异常激烈,国内市场甚至出现了 AI 加速卡供不应求的状态。对于 AI 训练的算力,人们一直以来都在依赖 GPU,最近,英特尔面向国内提出了一个新的解决方案。

7 月 11 日在北京举行的发布会上,英特尔正式于中国市场推出第二代 Gaudi 深度学习加速器 ——Habana Gaudi2

昨天的活动中,英特尔介绍了 Gaudi2 芯片的性能,并讨论了面向中国市场的英特尔 AI 战略、最新 AI 相关产品技术进展和解决方案的应用。

「Gaudi 深度学习加速器的大语言模型训练能力进一步丰富了我们的人工智能产品阵列,」英特尔公司执行副总裁、数据中心与人工智能事业部总经理 Sandra Rivera 表示。「对于在中国运行深度学习训练和推理工作负载的客户来说,与市场上其他面向大规模生成式 AI 和大语言模型的产品相比,Gaudi2 是更理想的选择。除了在性能表现上超过 A100 之外,Gaudi2 在各种最先进的模型上相对于 A100 提供了约两倍的性价比。」

上周,英特尔 Habana Gaudi2 深度学习加速器和第四代英特尔至强可扩展处理器在 MLPerf Training 3.0 基准测试的最新榜单上展示了令人印象深刻的结果。该基准由 MLCommons 发布,是业内广泛认可的 AI 性能行业标准。

Gaudi2 加速器在计算机视觉模型 ResNet-50(8 卡)、Unet3D(8 卡),以及自然语言处理模型 BERT(8/64 卡)上均取得了优异的训练结果,在每个模型上性能都优于 A100,部分任务上接近 H100

此外,在大语言模型 GPT-3 的评测上,Gaudi2 也展现了实力。它是仅有的两个提交了 GPT-3 LLM 训练性能结果的解决方案之一(另一个是英伟达 H100)。在 GPT-3 的训练上,英特尔使用 384 块 Gaudi 2 加速器使用 311 分钟训练完成,在 GPT-3 模型上从 256 个加速器到 384 个加速器实现了近线性 95% 的扩展。

「相比之下,英伟达在 512 块 H100 GPU 上的训练时间则为 64 分钟。这意味着,基于 GPT-3 模型,每个 H100 的性能领先于 Gaudi2 3.6 倍,」Habana Labs 首席运营官 Eitan Medina 表示。「性价比是影响 H100 和 Gaudi2 相对价值的重要考量因素。Gaudi2 服务器的成本要比 H100 低得多。即使还没有配备 FP8,Gaudi2 在性价比上也胜过了 H100。」

英特尔表示,Gaudi2 在 MLPerf 上提交的结果没有经过模型或框架的特殊调校,这意味着用户也可以在本地或云端部署 Gaudi2 时获得类似的性能结果。

Gaudi2 在服务器和系统成本方面还具有显著的成本优势,这使得它可以成为英伟达 H100 的有力竞争对手。

去年,英特尔旗下的 Habana Labs 推出了第二代 AI 训练加推理芯片 Gaudi2。与头一代产品相比,Habana Gaudi 2 使用的制程工艺从 16 纳米跃升至 7 纳米,在矩阵乘法(MME)和 Tensor 处理器核心计算引擎中引入了 FP8 在内的新数据类型,Tensor 处理器核心数量增至 24 个,同时集成了多媒体处理引擎,内存升级至 96GB HBM2E。

在当前生成式 AI 看重的扩展性能方面,国内版本的 Gaudi2 每张芯片集成了 21 个专用于内部互联的 100Gbps(RoCEv2 RDMA)以太网接口(相比海外版本略有减少),从而实现了低延迟的服务器内扩展。

为支持客户轻松构建模型,或将当前基于 GPU 的应用迁移到 Gaudi2 服务器上,英特尔提供的 SynapseAI 软件套件针对 Gaudi 平台深度学习业务进行了优化。SynapseAI 集成了对 TensorFlow 和 PyTorch 框架的支持,并提供众多流行的计算机视觉和自然语言参考模型,能够满足深度学习开发者的多样化需求。

而在 Hugging Face 平台上,已有超过 5 万个模型使用 Optimum Habana 软件库进行了优化。Sandra Rivera 表示,英特尔通过与 Hugging Face 的合作,平台上的现有的模型只需要花费几十秒时间就可以调通运行在 Gaudi 加速器上。

目前,已有 OEM 厂商推出了基于英特尔 AI 加速卡的产品。在发布活动中,英特尔宣布 Gaudi2 首先将通过浪潮信息向国内客户提供,其服务器集成了 8 块 Gaudi2 加速卡 HL-225B,还包含两颗第四代英特尔至强可扩展处理器。

在昨天的活动中,英特尔也透露了其在 AI 加速领域的未来发展方向。下一代 Gaudi 3 芯片预计在明年推出,将采用台积电 5 纳米制程,也会同期推出国内版。而在 2025 年左右,英特尔计划将 Gaudi 与其现有 GPU 产品线进行整合。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
2月前
|
人工智能 安全 自动驾驶
【通义】AI视界|英特尔和AMD“史无前例”首次合作,组建X86生态系统咨询小组
本文概览了近期科技领域的五大热点新闻,包括联想与Meta合作推出个人AI智能体“AI Now”,英特尔和AMD首次合作组建X86生态系统咨询小组,特斯拉计划大规模生产自动驾驶出租车,前Palantir首席信息安全官加盟OpenAI,以及Meta因涉嫌损害青少年心理健康面临美国多州诉讼。更多资讯,请访问通义平台。
|
3月前
|
人工智能 数据中心 芯片
【通义】AI视界|英特尔推出新一代AI芯片挑战英伟达
今日科技热点包括:OpenAI CTO 米亚·穆拉蒂宣布离职,Meta发布多功能Llama 3.2语言模型,扎克伯格因Meta的人工智能策略使个人资产突破2000亿美元,星纪魅族展示AI生态新品如Lucky 08 AI手机及智能穿戴设备,以及英特尔发布Xeon 6 CPU和Gaudi 3 AI加速器挑战英伟达市场地位。这些动态展现了人工智能领域快速发展的趋势及其对科技巨头的影响。
|
4月前
|
人工智能 Anolis
展示全栈式AI平台,探讨软硬件技术!英特尔分论坛议程来啦 | 2024 龙蜥大会
英特尔分论坛将依托英特尔云到端的全面产品组合,围绕至强可扩展处理器、AI 加速器、以及 oneAPI、OpenVINO 等软硬件技术展开探讨。
展示全栈式AI平台,探讨软硬件技术!英特尔分论坛议程来啦 | 2024 龙蜥大会
|
4月前
|
人工智能 安全 Anolis
专访英特尔:开源与 AI 迅猛发展,龙蜥社区提供高效合作平台
龙蜥社区为开源技术、AI 技术提供了一个非常好的高效合作的平台。
|
7月前
|
人工智能 分布式计算 算法
英特尔助力龙蜥加速 AI 应用及 LLM 性能
英特尔至强服务器平台加速大语言模型应用。
|
7月前
|
存储 人工智能 自然语言处理
参数是ChaGPT的近6倍!英特尔公布AI大模型Aurora genAI,具备1万亿参数
参数是ChaGPT的近6倍!英特尔公布AI大模型Aurora genAI,具备1万亿参数
94 0
|
7月前
|
机器学习/深度学习 数据采集 人工智能
为AI加速而生 英特尔第五代至强CPU带来AI新表现
AI时代,亲民、易用的CPU如何能实现相比GPU更具性价比的加速方案?英特尔® 至强® 可扩展处理器给出答案:内置AI加速引擎,更好地承载人工智能应用工作负载。
|
存储 人工智能 自然语言处理
D1net阅闻 | 英特尔推出AI大模型Aurora genAI,参数量是GPT-3的近6倍
D1net阅闻 | 英特尔推出AI大模型Aurora genAI,参数量是GPT-3的近6倍
228 0
|
机器学习/深度学习 人工智能 安全
新至强训练推理增效十倍,英特尔CPU加速AI更上一层楼
英特尔在自己最擅长的 CPU 上完成了一次 AI 计算的革新。
307 0
新至强训练推理增效十倍,英特尔CPU加速AI更上一层楼
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
转载:【AI系统】AI的领域、场景与行业应用
本文概述了AI的历史、现状及发展趋势,探讨了AI在计算机视觉、自然语言处理、语音识别等领域的应用,以及在金融、医疗、教育、互联网等行业中的实践案例。随着技术进步,AI模型正从单一走向多样化,从小规模到大规模分布式训练,企业级AI系统设计面临更多挑战,同时也带来了新的研究与工程实践机遇。文中强调了AI基础设施的重要性,并鼓励读者深入了解AI系统的设计原则与研究方法,共同推动AI技术的发展。
转载:【AI系统】AI的领域、场景与行业应用