英伟达A800、H800将被出口管制,国产GPU能否顶起一片天?

简介: 直面差距

10月17日晚间消息,美国商务部延长了在2022年10月首次实行的全面出口管制,将收紧对尖端人工智能芯片的出口管制。

在新规下,英伟达旗下先进的GPU、显卡等将被禁止向中国市场出售,其中还包含了A800和H800这样专门为中国市场定制的芯片。AMD、英特尔等芯片巨头的高性能芯片也将被限制向中国出口。

此次美国出口管制规则更新后,还扩大了芯片制造工具出口限制清单,中国的两家国产GPU制造商——摩尔线程、壁仞科技被列入“实体清单”。

业内认为,此次禁售意味着美方试图对我国算力发展作进一步遏制,同时也对模型端发展有所限制,因此国产GPU厂商需要加速发展。
未命名1697681199.png

AI时代渐近,GPU需求的高速增长几乎毋庸置疑。在美国屡次禁售高速GPU的背景下,GPU的国产化进程如何?

英伟达高性能

GPU供不应求

ChatGPT意外掀起的一波AI革命,带火了AI芯片市场。而英伟达旗下A100和H100两款AI芯片,正是ChatGPT这样的大语言模型的核心动力。

目前在GPU领域,大部分国内企业仍然只能仰赖英伟达一家的技术。由于美国政府收紧对华出口管制,以及AI大模型带来的庞大算力需求,英伟达的高性能GPU处理器“一芯难求”。

从去年开始,英伟达旗下A100、H100、A800、H800等高性能GPU芯片应声涨价,尤其旗舰级芯片H100,4月中旬在海外电商平台就已炒到超4万美元,甚至有卖家标价6.5万美元一片。

同时,英伟达的中国特供版A800和H800芯片也遭到了哄抢,整个市场需大于求,缺货非常厉害。有业内人士表示,今年这类GPU芯片从原来的12万人民币左右,变成了现在是25万甚至30万,甚至有高达50万一片。

即便价格不断暴涨,国内大厂也不得不大批量买芯片。

据媒体报道称,百度、字节跳动、腾讯和阿里巴巴向英伟达下单订购50亿美元的芯片。其中,字节跳动今年已向英伟达订购了超过10亿美元的GPU产品,仅字节一家公司今年的采购量就已经接近英伟达去年在中国销售的商用GPU总销售额。

此次美国出口管制再次收紧,多家国内厂商表示已提前接到美国更新出口管制规定的通知,已提前进行囤货。

据媒体消息,腾讯、百度等大厂由于“囤货充足”,受“禁令”影响或有限。也有厂商表示,虽然目前已经囤了足够量,不过未来还是有很大压力。

这种压力,一方面来自国内对于AI算力需求的暴增,另一方面也源于国产AI芯片的差距。

国产AI芯片与

英伟达差距几何

一个不可否认的事实是,国内相关的芯片产品都和英伟达A100有较大差距。

曾有人坦言,英伟达与其他芯片厂商的差距,是院士与高中生的差别。就如同黄仁勋所言,英伟达“一直在奔跑”,想要超越巨人的其它芯片厂商只能奋力狂奔。

据《电子工程专辑》发布的《45家国产AI芯片厂商调研分析报告》显示,在调研分析了瀚博半导体、燧原科技、平头哥、华为海思、紫光展锐、寒武纪、地平线等国内AI芯片厂商后,得出一个结论:

“国产AI芯片公司在高性能和先进工艺AI芯片的设计方面还面临诸多挑战,而且在AI芯片价值链的EDA和IP环节上还有不小的差距。”

目前,国内AI芯片厂商格局可大致分为三个梯队:

一梯队,有成熟产品、批量出货的企业,包括寒武纪、华为昇腾、百度昆仑芯、燧原科技等;

二梯队,以AI芯片起家的壁仞科技、天数智心、摩尔线程、沐曦等;

三梯队,如海光、景嘉微等。

那么,这些国产AI芯片和英伟达芯片相比,处于什么样的水平?综合业界测评和实际部署的情况,以下是部分国产AI芯片的现状:

华为昇腾910与英伟达的差距
2018年,华为推出了昇腾系列(HUAWEI Ascend) 芯片,主要产品有昇腾310与昇腾910。

目前昇腾910是业界算力最强的AI处理器,芯片基于自研华为达芬奇架构3D Cube技术,实现业界极佳AI性能与能效。测试数据显示,昇腾910算力是英伟达V100的两倍,略超 “A100 80GB PCIe”版本。

受到2019年开始的制裁影响,原计划在2021年推出用于训练场景的昇腾920研发进度向后延宕,发展进度受到巨大影响。

目前,华为昇腾只能用于华为自身生态中的大模型业务,比如昇腾不能做GPT-3,因为昇腾910不支持32位浮点,而目前大模型训练几乎都要使用32位的浮点,所以华为昇腾芯片只能利用华为开发的框架(如MindSpore),在加上优化好的大模型,比如盘古CV。

由于任何公开模型都必须经过华为的深度优化才能在华为的平台上运行,所以可以理解为华为昇腾只能运行自己闭环的大模型产品。

百度昆仑2代与英伟达的差距
百度已有两款产品,都在百度云服务器上部署:

一是,2018年下半年发布昆仑芯一代产品,基于三星14nm,可以做训练和推理,因此主要用于推理。

二是,2021年发布昆仑芯二代产品,搭载GDDR6高性显存,支持256TOPS(INT8)算力,和V100差距缩小,可以做训练和推理。

第三代昆仑芯产品,预计明年上半年发布。

寒武纪思元590与英伟达的差距
寒武纪主要还是ASIC架构,劣势是通用性会比较差,优势是某些特定应用场景下,算力可以做到比GPU更高。

百度内部的测试结果显示,寒武纪最好的产品思元590,性能接近A100 90%的性能;思元590基本支持主流的模型,综合性能接近A100 80%的水平。

目前,百度文心一言在训练端主要使用英伟达产品V100和A100,在推理端主要使用英伟达A100和百度昆仑芯2代,小规模部署了寒武纪思元590。

但实际上线中并没有使用思元590,主要原因在于其性能指标不如A100,而且架构不太兼容、难度大。

壁仞科技与英伟达的差距
壁仞科技去年发布的产品规格很高,但主要还是停留在纸面数据,实测数据、实际性能方面业界和第三方评测机构评价没有那么高,它本身的性能是不及A100的。

在软件层面也还有很多工作要做,目前它只是做了一个软件的雏形,从使用维度来讲离成熟的生态软件、规模化的出货、客户端的个适配还有很⻓的路要走。

现在它也面临着制裁问题、实体清单问题,对于这样的初创企业是生存层面的问题。

像天数智芯、摩尔线程、沐曦也都陆续有产品推出,但技术能力不及壁仞,只是停留在推理层面,不像第一梯队的企业有更成熟的产品经验。

景嘉微JM9与英伟达的差距
景嘉微最好的JM9系列,可以满足目标识别等部分人工智能领域的需求,但不能满足AI计算、ChatGPT等领域的应用需求。大概达到英伟达GTX 1050的水平,只能算入门级GPU。

海光DCU Z100与英伟达的差距
海光是做X86CPU起家的,GPU的技术能力还有待市场的认可和检验。

目前,海光训练产品的算力规模不足以支持做数据中心。海光DCU Z100训练算力较小,不到100TFLOPS,只适合一些推理场景,不足以支持大模型的训练,因此没有能力去替代英伟达的产品。

从产品层面来讲,海光离传统做AI芯片的企业还是有较大的技术差距。

总体而言,国内已经批量生产的AI芯片,大多都是A100的上一代。目前能运行大模型训练的,还是英伟达的A100、A800、H100、H800效率最高。

这意味着,想要达到同样的算力,需要企业购置更多的国产AI芯片。对企业而言,就意味着更多的成本支出。

国产GPU芯片

自研任重道远

需要承认的是,国产AI芯片产品走向高端还有较远的距离。

除了技术上的差距,国产GPU在生态建立方面仍不如英伟达完善,这也使得很多国内厂商不敢轻易改用国产芯片。

据一家国产GPU厂商销售人员透露,目前国内第一批大模型厂商使用的基本都是英伟达A100、A800的芯片,因为英伟达构建了完善的CUDA生态。

“如果你用惯了这个生态,”该销售人员说,“贸然换一个生态,意味着你的学习成本、试错成本、调试成本都会增加,自然没人会想要换了”。

众所周知,芯片需要适配硬件系统、工具链、编译器等多个层级,需要很强的适配性,否则会出现这款芯片在某个场景能跑出90%的算力,在另一场景只能跑出80%效能的情景。

早在2006年,英伟达就推出了计算平台CUDA,这是一个并行计算软件引擎,CUDA框架里集成了很多调用GPU算力所需的代码,工程师可以直接使用这些代码,无须一一编写。开发者可使用CUDA更高效地进行AI训练和推理,更好的发挥GPU算力。

时至今日,CUDA已成为全球AI基础设施,主流的AI框架、库、工具都以CUDA为基础进行开发。

虽然英伟达GPU价格贵,但实际用起来反而是最便宜的。这对有意抓住大模型机会的企业来说,钱往往不是问题,时间才是更宝贵的资源,大家都必须尽快获得足够多的先进算力来确保先发优势。

因此,对于国产芯片供应商来讲,哪怕能通过堆芯片的方式能堆出一个算力相当的产品,但软件适配与兼容让客户接受更难。

此外,从服务器运营的角度,它的主板开销、电费、运营费,以及需要考虑的功耗、散热等问题,都会大大增加数据中心的运营成本。

由此可见,国产GPU在与英伟达的竞争中阻力重重,想实现突围并不容易。

但值得注意的是,此次美国限制出口政策的收紧,又一次为国内厂商敲响了警钟。

尽管国产芯片在性能和软件生态上比不过英伟达、AMD等行业巨头,但在复杂的国际贸易关系及地缘政治因素等驱动下,“国产替代”成为国内半导体行业发展的主旋律。

从安全性以及自主可控的角度来说,这也为国内AI芯片企业提供了新的机遇窗口。

一位业内人士分析称,在当前“缺芯”的形势下,国内大模型厂商可以在不是特别商业化的场景多给国产芯片机会,支持国产芯片厂商技术迭代,共同营造生态,共同成长。

不仅如此,目前全国各地的智能算力中心建设稳步推进,AI芯片的需求快速增长,国产化替代的需求也随之提升。

中国巨大的AI市场体量和快速迭代的发展进程,为众多国产AI芯片厂商提供了丰富的试验基地和应用设计机会。接下来的3-5年,将是国产AI芯片厂商加速AI应用落地和大规模部署的快速发展时期。

“AI算力国产化”的市场大门,或许正在打开。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
12月前
|
存储 人工智能 芯片
多GPU训练大型模型:资源分配与优化技巧 | 英伟达将推出面向中国的改良芯片HGX H20、L20 PCIe、L2 PCIe
在人工智能领域,大型模型因其强大的预测能力和泛化性能而备受瞩目。然而,随着模型规模的不断扩大,计算资源和训练时间成为制约其发展的重大挑战。特别是在英伟达禁令之后,中国AI计算行业面临前所未有的困境。为了解决这个问题,英伟达将针对中国市场推出新的AI芯片,以应对美国出口限制。本文将探讨如何在多个GPU上训练大型模型,并分析英伟达禁令对中国AI计算行业的影响。
1477 0
|
机器学习/深度学习 人工智能 芯片
一文详解多模态大模型发展及高频因子计算加速GPU算力 | 英伟达显卡被限,华为如何力挽狂澜?
近年来,全球范围内的芯片禁令不断升级,给许多企业和科研机构带来了很大的困扰,需要在技术层面进行创新和突破。一方面,可以探索使用国产芯片和其他不受限制的芯片来替代被禁用的芯片;另一方面,可以通过优化算法和架构等方法来降低对特定芯片的依赖程度。
|
6月前
|
人工智能 缓存 机器人
【2024】英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍
英伟达在加州圣荷西的GTC大会上发布了全新的Blackwell GPU,这款拥有2080亿个晶体管的芯片将AI性能推向新高度,是公司对通用计算时代的超越。Blackwell采用多芯片封装设计,通过两颗GPU集成,解决了内存局部性和缓存问题,提供20 petaflops的FP4算力,是上一代产品的5倍。此外,新平台降低了构建和运行大规模AI模型的成本和能耗,使得大型语言模型推理速度提升30倍。黄仁勋表示,Blackwell标志着AI算力在近八年内增长了一千倍,引领了技术边界拓宽的新趋势。
|
存储 人工智能 安全
探秘英伟达显卡的制造之路 | 英伟达断供GPU,中国大模型何去何从?
在当今时代,人工智能技术正以前所未有的速度发展,推动着各个领域的创新与变革。作为人工智能技术的核心引擎之一,高性能GPU扮演着至关重要的角色。在这个领域,英伟达的H100无疑是一款备受瞩目的高端产品。它针对高性能计算和人工智能应用而设计,具备强大的计算能力和高内存容量,以及先进的互连技术,可以有效提升集群中的计算效率,加速深度学习、计算机视觉、自然语言处理等领域的AI训练和推理任务。
|
机器学习/深度学习 存储 人工智能
【玩转 GPU】英伟达GPU架构演变
【玩转 GPU】英伟达GPU架构演变
585 0
【玩转 GPU】英伟达GPU架构演变
|
机器学习/深度学习 人工智能 缓存
英伟达用AI设计GPU算术电路,面积比最先进EDA减少25%,速度更快、更加高效
英伟达用AI设计GPU算术电路,面积比最先进EDA减少25%,速度更快、更加高效
256 0
|
3月前
|
机器学习/深度学习 编解码 人工智能
阿里云gpu云服务器租用价格:最新收费标准与活动价格及热门实例解析
随着人工智能、大数据和深度学习等领域的快速发展,GPU服务器的需求日益增长。阿里云的GPU服务器凭借强大的计算能力和灵活的资源配置,成为众多用户的首选。很多用户比较关心gpu云服务器的收费标准与活动价格情况,目前计算型gn6v实例云服务器一周价格为2138.27元/1周起,月付价格为3830.00元/1个月起;计算型gn7i实例云服务器一周价格为1793.30元/1周起,月付价格为3213.99元/1个月起;计算型 gn6i实例云服务器一周价格为942.11元/1周起,月付价格为1694.00元/1个月起。本文为大家整理汇总了gpu云服务器的最新收费标准与活动价格情况,以供参考。
阿里云gpu云服务器租用价格:最新收费标准与活动价格及热门实例解析
|
2月前
|
机器学习/深度学习 存储 人工智能
阿里云GPU云服务器实例规格gn6v、gn7i、gn6i实例性能及区别和选择参考
阿里云的GPU云服务器产品线在深度学习、科学计算、图形渲染等多个领域展现出强大的计算能力和广泛的应用价值。本文将详细介绍阿里云GPU云服务器中的gn6v、gn7i、gn6i三个实例规格族的性能特点、区别及选择参考,帮助用户根据自身需求选择合适的GPU云服务器实例。
阿里云GPU云服务器实例规格gn6v、gn7i、gn6i实例性能及区别和选择参考
|
3月前
|
编解码 分布式计算 Linux
最新阿里云服务器、轻量应用服务器、GPU云服务器活动价格参考
阿里云服务器产品包含云服务器、轻量应用服务器、GPU云服务器等,本文汇总了这些云服务器当下最新的实时活动价格情况,包含经济型e实例云服务器价格、通用算力型u1实例云服务器价格、第七代云服务器价格、轻量应用服务器最新价格、GPU云服务器价格,以供大家参考。
最新阿里云服务器、轻量应用服务器、GPU云服务器活动价格参考
|
3月前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多样化的选择,包括CPU+GPU、CPU+FPGA等多种配置,适用于人工智能、机器学习和深度学习等计算密集型任务。其中,GPU服务器整合高性能CPU平台,单实例可实现最高5PFLOPS的混合精度计算能力。根据不同GPU类型(如NVIDIA A10、V100、T4等)和应用场景(如AI训练、推理、科学计算等),价格从数百到数千元不等。详情及更多实例规格可见阿里云官方页面。
208 1