英特尔推出两款 7nm AI 芯片,内存高达 96GB HBM2e,训练成本更低

简介: 当地时间 5 月 10 日,英特尔举办了 2022 英特尔 On 产业创新峰会。在此次峰会上,英特尔公布了其在芯片、软件和服务方面取得的多项进展,并宣布了包括第 12 代英特尔酷睿 HX 处理器家族、阿波罗计划、Greco AI 加速芯片在内的一系列重大发布。

当地时间 5 月 10 日,英特尔举办了 2022 英特尔 On 产业创新峰会。在此次峰会上,英特尔公布了其在芯片、软件和服务方面取得的多项进展,并宣布了包括第 12 代英特尔酷睿 HX 处理器家族、阿波罗计划、Greco AI 加速芯片在内的一系列重大发布。

英特尔 CEO 帕特·基辛格在峰会上表示:“全球市场正处于最具活力的时代。企业目前面临的挑战错综复杂且相互关联,而成功的关键取决于企业快速采用和最大化利用领先技术和基础设施的能力。在当下复杂的环境中,英特尔将展示如何运用规模、资源、芯片、软件及服务,帮助客户及合作伙伴加速数字化转型。”

宣布多项重大发布

人工智能、无所不在的计算、无处不在的连接、从云到边缘的基础设施——这四大超级技术力量,正驱动着世界对半导体的空前需求,开启无限可能,实现从真正的混合算力环境到全新的沉浸式体验。与此同时,企业在供应链、安全、可持续性,以及对全新复杂工作负载的适应能力等方面,面临着与日俱增的压力。英特尔正致力于通过从云到边缘到客户端引入全新的硬件、软件和服务,来帮助用户解决这一系列挑战。

推出全新第 12 代英特尔酷睿 HX 处理器家族

为了更快地迭代内容,为专业人士和创作者提供更强大的处理能力和更高的平台带宽,英特尔宣布推出全新第 12 代英特尔酷睿 HX 处理器,完善了第 12 代酷睿产品家族。值得一提的是,英特尔酷睿 i9-12900HX 处理器最多拥有 16 个核心和高达 5GHz 的时钟频率。

image.png

据英特尔方面称,第 12 代英特尔酷睿 HX 处理器,通过更多的核心数、更大内存和 I/O 支持,把多线程工作负载的性能提升 64%,同时借助英特尔硬件线程调度器来充分释放性能核和能效核蕴含的迅猛性能,让专业人士可以在办公室、家中或旅途中以超高效率进行创作、编程、渲染和工作。除了作为工作的得力助手,第 12 代酷睿 HX 处理器还是游戏平台强者,为骨灰级游戏玩家以更高帧率畅玩熟知且喜爱的游戏。

第 12 代英特尔酷睿 HX 处理器家族在创新的移动设备中,能够提供满足生产力、协作、内容创建、游戏和娱乐体验等方面的真实场景应用需求,其特性包括:

  • 最多 16 核心(8 个性能核和 8 个能效核)和 24 线程,处理器基础功率为 55W;
  • 16 条处理器直连 PCIe Gen 5.0 通道,和 4x4 专用平台控制器集线器(PCH)的 PCIe Gen 4.0 通道,增加了带宽并加快了数据传输速度;
  • 业界率先全线未锁频和可超频处理器;
  • 支持高达 128GB 的 DDR5/LPDDR5(高达 4800MHz/5200MHz)和 DDR4 内存(高达 3200MHz/LPDDR4 4267MHz),支持纠错码(ECC)功能;
  • 采用英特尔 Wi-Fi 6/6E(Gig+),实现更好的连接性能,并支持全新的 6GHz 频段。

戴尔、惠普、联想等众多 OEM 厂商,预计将在今年推出 10 余款搭载第 12 代英特尔酷睿 HX 处理器的工作站和游戏设备。

发布两款 AI 处理器新品:Gaudi2、Greco

在此次峰会上,英特尔不仅公布了在酷睿 HX 处理器家族上取得的最新进展,其 Habana Labs 团队也宣布推出两款 AI 处理器新品:第二代 Gaudi 深度学习训练处理器——Gaudi2 和 Goya 深度学习推理处理器的后续产品——Greco。

对于数据中心客户而言,由于数据集和人工智能业务的规模和复杂性日益增长,训练深度学习模型所需的时间和成本越来越高。Gaudi2 旨在为云和本地客户带来更高的深度学习性能和效率,及更好的选择。

为提高模型的准确性和实时性,用户需要更频繁地进行训练。根据IDC的数据,在 2020 年接受调查的机器学习从业者中,有 74%的人对其模型进行过 5-10 次迭代训练,超过 50%需要每周或更频繁地重建模型, 26%的人则每天甚至每小时会重建模型。56% 的受访者认为培训成本是阻碍其组织利用人工智能解决问题,创新和增强终端客户体验的首要因素。基于此,第一代 Gaudi 和 Gaudi2 在内的 Gaudi 平台解决方案应运而生。

英特尔表示,相对于其上一代产品和市场上的同类型产品而言,这些处理器提供了显著的加速。Habana 的客户现在可以使用 Gaudi2 处理器,而 Greco 将在今年下半年开始为选定的客户提供样品。

Habana Labs 成立于 2016 年,旨在打造世界级的 AI 处理器,仅仅三年后就被英特尔以 20 亿美元的高价收购。上述第一代 Goya 推理处理器是由 Habana 团队于 2018 年默默推出的产品,而第一代 Gaudi 训练处理器于 2019 年推出,正好在英特尔收购之前。

因此,这些新品的推出标志着英特尔 Habana Labs 完成了一个重要的里程碑时刻:虽然 Gaudi 和 Goya 在过去几年中以各种形式呈现出来,但这些是 Habana Labs 自收购以来发布的第一批​​新处理器。

Gaudi2 和 Greco (通过两者的制造商台积电)都实现了从 16nm 到 7nm 工艺的飞跃。以 Gaudi2 为例,第一代 Gaudi 训练处理器中的 10 个 Tensor 处理器内核已增加到 24 个,而封装内存容量从 32GB (HBM2) 增加了两倍至 96GB (HBM2E),板载 SRAM 增加了一倍,从 24MB 增加到了 48MB。“这是第一个也是唯一一个集成了如此大量内存的加速器,”Habana Labs 的首席运营官 Eitan Medina 在谈到 Gaudi2 中的 HBM2E 时如是说。

该处理器的 TDP 为 600W(与 Gaudi 的 350W 相比),但是,Medina 表示,其冷却方式仍然使用被动冷却并且不需要液体冷却。

在此次峰会上,Medina 还展示了 Gaudi2 与上一代 Gaudi 和同类型产品在某些热门任务上的性能比较,这让会场气氛呈现出了一波小高潮。

例如,在 ResNet-50 上,Gaudi2 的输出是 Gaudi 的 3.2 倍,是 80GB Nvidia A100 的 1.9 倍,是 Nvidia V100 的 4.1 倍。在其他一些 benchmark 中,Gaudi 和 80GB A100 之间的差距更加明显:对于 BERT Phase-2 训练吞吐量,Gaudi2 比 80GB A100 高出 2.8 倍。“与 V100 和 A100 相比很重要,因为两者实际上都大量用于云和本地,”Medina 解释说。

image.png

Gaudi2 现在可供 Habana 客户使用,它以夹层卡形式提供,并作为 HLS-Gaudi2 服务器的一部分,旨在支持客户对 Gaudi2 的评估。该服务器配备了 8 个 Gaudi2 卡和一个双插槽 Intel Xeon 子系统。对于更实质性的部署,Habana 正在与 Supermicro 合作,预计将在 2022 年下半年将配备 Gaudi2 的训练服务器(Supermicro Gaudi2 Training Server)推向市场,并与 DDN 合作开发一种增强 DDN 人工智能的 Gaudi 训练服务器的变体-集中存储。此外,一千个 Gaudi2 已经部署到 Habana 在以色列的数据中心,用于软件优化和推进 Gaudi3 处理器的开发。

第四代至强可扩展处理器 Sapphire Rapids 正式发货

在峰会开幕式上,英特尔公司数据中心与人工智能事业部执行副总裁兼总经理 Sandra Rivera 透露,英特尔面向服务器、数据中心领域的产品被称作至强可扩展处理器——代号为 Sapphire Rapids,正式出货。她表示:“该处理器今天开始发货,它面向现代化的云端的基础设施,能够帮助云服务商高效管理所有的 CPU 内核,提高利用率。”

第四代英特尔至强可扩展处理器提供强大的整体性能,将支持 DDR5、PCIe 5.0 和 CXL 1.1,并凭借全新的集成加速器,通过针对 AI 工作负载的软硬件优化,相较上一代产品实现了性能提升。其次,该产品亦具备针对电信网络的新功能,可以为虚拟无线接入网(vRAN)部署,提供高达两倍的容量增益。此外,内置高带宽内存(HBM)的代号为 Sapphire Rapids 的英特尔至强处理器将显著提高处理器的可用内存带宽,从而为高性能计算提供超级动力。

启动“阿波罗计划”,提供超 30 种开源 AI 解决方案

会上,英特尔还宣布也与埃森哲联手启动“阿波罗计划”,旨在通过为企业提供经过优化设计的超过 30 种开源 AI 解决方案,让其能在本地、云端亦或是边缘环境中都更易于部署 AI。“阿波罗计划”的首批套件预计将在未来几个月内发布。

此外,英特尔还公布了其到 2026 年的 IPU 产品路线图,其中包括基于全新 FPGA 和英特尔架构平台的代号为 Hot Springs Canyon 的产品,Mount Morga(MMG)ASIC,以及下一代 800GB 产品。IPU 是具有强化加速功能的专用产品,旨在满足基础设施计算需求,使企业能够高效处理任务和解决问题。

目录
相关文章
|
9天前
|
人工智能 物联网 C语言
SVDQuant:MIT 推出的扩散模型后训练的量化技术,能够将模型的权重和激活值量化至4位,减少内存占用并加速推理过程
SVDQuant是由MIT研究团队推出的扩散模型后训练量化技术,通过将模型的权重和激活值量化至4位,显著减少了内存占用并加速了推理过程。该技术引入了高精度的低秩分支来吸收量化过程中的异常值,支持多种架构,并能无缝集成低秩适配器(LoRAs),为资源受限设备上的大型扩散模型部署提供了有效的解决方案。
36 5
SVDQuant:MIT 推出的扩散模型后训练的量化技术,能够将模型的权重和激活值量化至4位,减少内存占用并加速推理过程
|
15天前
|
机器学习/深度学习 人工智能 缓存
【AI系统】推理内存布局
本文介绍了CPU和GPU的基础内存知识,NCHWX内存排布格式,以及MNN推理引擎如何通过数据内存重新排布进行内核优化,特别是针对WinoGrad卷积计算的优化方法,通过NC4HW4数据格式重排,有效利用了SIMD指令集特性,减少了cache miss,提高了计算效率。
35 3
|
20天前
|
人工智能 自然语言处理 数据挖掘
田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%
田渊栋团队提出Agent-as-a-Judge框架,利用智能体自身评估其他智能体的性能,不仅关注最终结果,还能提供中间反馈,更全面准确地反映智能体的真实能力。该框架在DevAI基准测试中表现出色,成本效益显著,为智能体的自我改进提供了有力支持。
35 7
|
19天前
|
机器学习/深度学习 人工智能 算法
【AI系统】内存分配算法
本文探讨了AI编译器前端优化中的内存分配问题,涵盖模型与硬件内存的发展、内存划分及其优化算法。文章首先分析了神经网络模型对NPU内存需求的增长趋势,随后详细介绍了静态与动态内存的概念及其实现方式,最后重点讨论了几种节省内存的算法,如空间换内存、计算换内存、模型压缩和内存复用等,旨在提高内存使用效率,减少碎片化,提升模型训练和推理的性能。
37 1
|
1月前
|
人工智能 分布式计算 数据可视化
大模型私有化部署全攻略:硬件需求、数据隐私、可解释性与维护成本挑战及解决方案详解,附示例代码助你轻松实现企业内部AI应用
【10月更文挑战第23天】随着人工智能技术的发展,企业越来越关注大模型的私有化部署。本文详细探讨了硬件资源需求、数据隐私保护、模型可解释性、模型更新和维护等方面的挑战及解决方案,并提供了示例代码,帮助企业高效、安全地实现大模型的内部部署。
133 1
|
1月前
|
人工智能 分布式计算 数据可视化
大模型私有化部署全攻略:硬件需求、数据隐私、可解释性与维护成本挑战及解决方案详解,附示例代码助你轻松实现企业内部AI应用
【10月更文挑战第23天】随着人工智能技术的发展,大模型在各领域的应用日益广泛。然而,将其私有化部署到企业内部面临诸多挑战,如硬件资源需求高、数据隐私保护、模型可解释性差、更新维护成本高等。本文探讨了这些挑战,并提出了优化硬件配置、数据加密、可视化工具、自动化更新机制等解决方案,帮助企业顺利实现大模型的私有化部署。
112 1
|
2月前
|
人工智能 安全 自动驾驶
【通义】AI视界|英特尔和AMD“史无前例”首次合作,组建X86生态系统咨询小组
本文概览了近期科技领域的五大热点新闻,包括联想与Meta合作推出个人AI智能体“AI Now”,英特尔和AMD首次合作组建X86生态系统咨询小组,特斯拉计划大规模生产自动驾驶出租车,前Palantir首席信息安全官加盟OpenAI,以及Meta因涉嫌损害青少年心理健康面临美国多州诉讼。更多资讯,请访问通义平台。
|
2月前
|
机器学习/深度学习 存储 人工智能
CDGA|AI时代:企业生产力飙升与数据治理成本轻松降低
AI时代,企业要实现生产力的持续飙升与数据治理成本的有效降低,关键在于推动AI与数据治理的深度融合。这要求企业不仅要加大AI技术的研发投入,培养专业的AI人才团队,还要构建完善的数据治理体系,确保数据的质量、安全与合规性。同时,企业还需积极探索AI与业务流程的深度融合路径,让AI技术真正嵌入到企业的每一个环节中,发挥其最大效用。
CDGA|AI时代:企业生产力飙升与数据治理成本轻松降低
|
3月前
|
数据采集 人工智能 安全
AI项目高昂成本与数据问题阻碍进展,2025年前30%的GenAI项目或将搁浅
AI项目高昂成本与数据问题阻碍进展,2025年前30%的GenAI项目或将搁浅
|
3月前
|
人工智能 数据中心 芯片
【通义】AI视界|英特尔推出新一代AI芯片挑战英伟达
今日科技热点包括:OpenAI CTO 米亚·穆拉蒂宣布离职,Meta发布多功能Llama 3.2语言模型,扎克伯格因Meta的人工智能策略使个人资产突破2000亿美元,星纪魅族展示AI生态新品如Lucky 08 AI手机及智能穿戴设备,以及英特尔发布Xeon 6 CPU和Gaudi 3 AI加速器挑战英伟达市场地位。这些动态展现了人工智能领域快速发展的趋势及其对科技巨头的影响。