英伟达A800、H800将被出口管制,国产GPU能否顶起一片天?

简介: 直面差距

10月17日晚间消息,美国商务部延长了在2022年10月首次实行的全面出口管制,将收紧对尖端人工智能芯片的出口管制。

在新规下,英伟达旗下先进的GPU、显卡等将被禁止向中国市场出售,其中还包含了A800和H800这样专门为中国市场定制的芯片。AMD、英特尔等芯片巨头的高性能芯片也将被限制向中国出口。

此次美国出口管制规则更新后,还扩大了芯片制造工具出口限制清单,中国的两家国产GPU制造商——摩尔线程、壁仞科技被列入“实体清单”。

业内认为,此次禁售意味着美方试图对我国算力发展作进一步遏制,同时也对模型端发展有所限制,因此国产GPU厂商需要加速发展。
未命名1697681199.png

AI时代渐近,GPU需求的高速增长几乎毋庸置疑。在美国屡次禁售高速GPU的背景下,GPU的国产化进程如何?

英伟达高性能

GPU供不应求

ChatGPT意外掀起的一波AI革命,带火了AI芯片市场。而英伟达旗下A100和H100两款AI芯片,正是ChatGPT这样的大语言模型的核心动力。

目前在GPU领域,大部分国内企业仍然只能仰赖英伟达一家的技术。由于美国政府收紧对华出口管制,以及AI大模型带来的庞大算力需求,英伟达的高性能GPU处理器“一芯难求”。

从去年开始,英伟达旗下A100、H100、A800、H800等高性能GPU芯片应声涨价,尤其旗舰级芯片H100,4月中旬在海外电商平台就已炒到超4万美元,甚至有卖家标价6.5万美元一片。

同时,英伟达的中国特供版A800和H800芯片也遭到了哄抢,整个市场需大于求,缺货非常厉害。有业内人士表示,今年这类GPU芯片从原来的12万人民币左右,变成了现在是25万甚至30万,甚至有高达50万一片。

即便价格不断暴涨,国内大厂也不得不大批量买芯片。

据媒体报道称,百度、字节跳动、腾讯和阿里巴巴向英伟达下单订购50亿美元的芯片。其中,字节跳动今年已向英伟达订购了超过10亿美元的GPU产品,仅字节一家公司今年的采购量就已经接近英伟达去年在中国销售的商用GPU总销售额。

此次美国出口管制再次收紧,多家国内厂商表示已提前接到美国更新出口管制规定的通知,已提前进行囤货。

据媒体消息,腾讯、百度等大厂由于“囤货充足”,受“禁令”影响或有限。也有厂商表示,虽然目前已经囤了足够量,不过未来还是有很大压力。

这种压力,一方面来自国内对于AI算力需求的暴增,另一方面也源于国产AI芯片的差距。

国产AI芯片与

英伟达差距几何

一个不可否认的事实是,国内相关的芯片产品都和英伟达A100有较大差距。

曾有人坦言,英伟达与其他芯片厂商的差距,是院士与高中生的差别。就如同黄仁勋所言,英伟达“一直在奔跑”,想要超越巨人的其它芯片厂商只能奋力狂奔。

据《电子工程专辑》发布的《45家国产AI芯片厂商调研分析报告》显示,在调研分析了瀚博半导体、燧原科技、平头哥、华为海思、紫光展锐、寒武纪、地平线等国内AI芯片厂商后,得出一个结论:

“国产AI芯片公司在高性能和先进工艺AI芯片的设计方面还面临诸多挑战,而且在AI芯片价值链的EDA和IP环节上还有不小的差距。”

目前,国内AI芯片厂商格局可大致分为三个梯队:

一梯队,有成熟产品、批量出货的企业,包括寒武纪、华为昇腾、百度昆仑芯、燧原科技等;

二梯队,以AI芯片起家的壁仞科技、天数智心、摩尔线程、沐曦等;

三梯队,如海光、景嘉微等。

那么,这些国产AI芯片和英伟达芯片相比,处于什么样的水平?综合业界测评和实际部署的情况,以下是部分国产AI芯片的现状:

华为昇腾910与英伟达的差距
2018年,华为推出了昇腾系列(HUAWEI Ascend) 芯片,主要产品有昇腾310与昇腾910。

目前昇腾910是业界算力最强的AI处理器,芯片基于自研华为达芬奇架构3D Cube技术,实现业界极佳AI性能与能效。测试数据显示,昇腾910算力是英伟达V100的两倍,略超 “A100 80GB PCIe”版本。

受到2019年开始的制裁影响,原计划在2021年推出用于训练场景的昇腾920研发进度向后延宕,发展进度受到巨大影响。

目前,华为昇腾只能用于华为自身生态中的大模型业务,比如昇腾不能做GPT-3,因为昇腾910不支持32位浮点,而目前大模型训练几乎都要使用32位的浮点,所以华为昇腾芯片只能利用华为开发的框架(如MindSpore),在加上优化好的大模型,比如盘古CV。

由于任何公开模型都必须经过华为的深度优化才能在华为的平台上运行,所以可以理解为华为昇腾只能运行自己闭环的大模型产品。

百度昆仑2代与英伟达的差距
百度已有两款产品,都在百度云服务器上部署:

一是,2018年下半年发布昆仑芯一代产品,基于三星14nm,可以做训练和推理,因此主要用于推理。

二是,2021年发布昆仑芯二代产品,搭载GDDR6高性显存,支持256TOPS(INT8)算力,和V100差距缩小,可以做训练和推理。

第三代昆仑芯产品,预计明年上半年发布。

寒武纪思元590与英伟达的差距
寒武纪主要还是ASIC架构,劣势是通用性会比较差,优势是某些特定应用场景下,算力可以做到比GPU更高。

百度内部的测试结果显示,寒武纪最好的产品思元590,性能接近A100 90%的性能;思元590基本支持主流的模型,综合性能接近A100 80%的水平。

目前,百度文心一言在训练端主要使用英伟达产品V100和A100,在推理端主要使用英伟达A100和百度昆仑芯2代,小规模部署了寒武纪思元590。

但实际上线中并没有使用思元590,主要原因在于其性能指标不如A100,而且架构不太兼容、难度大。

壁仞科技与英伟达的差距
壁仞科技去年发布的产品规格很高,但主要还是停留在纸面数据,实测数据、实际性能方面业界和第三方评测机构评价没有那么高,它本身的性能是不及A100的。

在软件层面也还有很多工作要做,目前它只是做了一个软件的雏形,从使用维度来讲离成熟的生态软件、规模化的出货、客户端的个适配还有很⻓的路要走。

现在它也面临着制裁问题、实体清单问题,对于这样的初创企业是生存层面的问题。

像天数智芯、摩尔线程、沐曦也都陆续有产品推出,但技术能力不及壁仞,只是停留在推理层面,不像第一梯队的企业有更成熟的产品经验。

景嘉微JM9与英伟达的差距
景嘉微最好的JM9系列,可以满足目标识别等部分人工智能领域的需求,但不能满足AI计算、ChatGPT等领域的应用需求。大概达到英伟达GTX 1050的水平,只能算入门级GPU。

海光DCU Z100与英伟达的差距
海光是做X86CPU起家的,GPU的技术能力还有待市场的认可和检验。

目前,海光训练产品的算力规模不足以支持做数据中心。海光DCU Z100训练算力较小,不到100TFLOPS,只适合一些推理场景,不足以支持大模型的训练,因此没有能力去替代英伟达的产品。

从产品层面来讲,海光离传统做AI芯片的企业还是有较大的技术差距。

总体而言,国内已经批量生产的AI芯片,大多都是A100的上一代。目前能运行大模型训练的,还是英伟达的A100、A800、H100、H800效率最高。

这意味着,想要达到同样的算力,需要企业购置更多的国产AI芯片。对企业而言,就意味着更多的成本支出。

国产GPU芯片

自研任重道远

需要承认的是,国产AI芯片产品走向高端还有较远的距离。

除了技术上的差距,国产GPU在生态建立方面仍不如英伟达完善,这也使得很多国内厂商不敢轻易改用国产芯片。

据一家国产GPU厂商销售人员透露,目前国内第一批大模型厂商使用的基本都是英伟达A100、A800的芯片,因为英伟达构建了完善的CUDA生态。

“如果你用惯了这个生态,”该销售人员说,“贸然换一个生态,意味着你的学习成本、试错成本、调试成本都会增加,自然没人会想要换了”。

众所周知,芯片需要适配硬件系统、工具链、编译器等多个层级,需要很强的适配性,否则会出现这款芯片在某个场景能跑出90%的算力,在另一场景只能跑出80%效能的情景。

早在2006年,英伟达就推出了计算平台CUDA,这是一个并行计算软件引擎,CUDA框架里集成了很多调用GPU算力所需的代码,工程师可以直接使用这些代码,无须一一编写。开发者可使用CUDA更高效地进行AI训练和推理,更好的发挥GPU算力。

时至今日,CUDA已成为全球AI基础设施,主流的AI框架、库、工具都以CUDA为基础进行开发。

虽然英伟达GPU价格贵,但实际用起来反而是最便宜的。这对有意抓住大模型机会的企业来说,钱往往不是问题,时间才是更宝贵的资源,大家都必须尽快获得足够多的先进算力来确保先发优势。

因此,对于国产芯片供应商来讲,哪怕能通过堆芯片的方式能堆出一个算力相当的产品,但软件适配与兼容让客户接受更难。

此外,从服务器运营的角度,它的主板开销、电费、运营费,以及需要考虑的功耗、散热等问题,都会大大增加数据中心的运营成本。

由此可见,国产GPU在与英伟达的竞争中阻力重重,想实现突围并不容易。

但值得注意的是,此次美国限制出口政策的收紧,又一次为国内厂商敲响了警钟。

尽管国产芯片在性能和软件生态上比不过英伟达、AMD等行业巨头,但在复杂的国际贸易关系及地缘政治因素等驱动下,“国产替代”成为国内半导体行业发展的主旋律。

从安全性以及自主可控的角度来说,这也为国内AI芯片企业提供了新的机遇窗口。

一位业内人士分析称,在当前“缺芯”的形势下,国内大模型厂商可以在不是特别商业化的场景多给国产芯片机会,支持国产芯片厂商技术迭代,共同营造生态,共同成长。

不仅如此,目前全国各地的智能算力中心建设稳步推进,AI芯片的需求快速增长,国产化替代的需求也随之提升。

中国巨大的AI市场体量和快速迭代的发展进程,为众多国产AI芯片厂商提供了丰富的试验基地和应用设计机会。接下来的3-5年,将是国产AI芯片厂商加速AI应用落地和大规模部署的快速发展时期。

“AI算力国产化”的市场大门,或许正在打开。

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
2月前
|
人工智能 缓存 机器人
【2024】英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍
英伟达在加州圣荷西的GTC大会上发布了全新的Blackwell GPU,这款拥有2080亿个晶体管的芯片将AI性能推向新高度,是公司对通用计算时代的超越。Blackwell采用多芯片封装设计,通过两颗GPU集成,解决了内存局部性和缓存问题,提供20 petaflops的FP4算力,是上一代产品的5倍。此外,新平台降低了构建和运行大规模AI模型的成本和能耗,使得大型语言模型推理速度提升30倍。黄仁勋表示,Blackwell标志着AI算力在近八年内增长了一千倍,引领了技术边界拓宽的新趋势。
|
8月前
|
存储 人工智能 芯片
多GPU训练大型模型:资源分配与优化技巧 | 英伟达将推出面向中国的改良芯片HGX H20、L20 PCIe、L2 PCIe
在人工智能领域,大型模型因其强大的预测能力和泛化性能而备受瞩目。然而,随着模型规模的不断扩大,计算资源和训练时间成为制约其发展的重大挑战。特别是在英伟达禁令之后,中国AI计算行业面临前所未有的困境。为了解决这个问题,英伟达将针对中国市场推出新的AI芯片,以应对美国出口限制。本文将探讨如何在多个GPU上训练大型模型,并分析英伟达禁令对中国AI计算行业的影响。
1115 0
|
9月前
|
机器学习/深度学习 人工智能 芯片
一文详解多模态大模型发展及高频因子计算加速GPU算力 | 英伟达显卡被限,华为如何力挽狂澜?
近年来,全球范围内的芯片禁令不断升级,给许多企业和科研机构带来了很大的困扰,需要在技术层面进行创新和突破。一方面,可以探索使用国产芯片和其他不受限制的芯片来替代被禁用的芯片;另一方面,可以通过优化算法和架构等方法来降低对特定芯片的依赖程度。
|
8月前
|
存储 人工智能 安全
探秘英伟达显卡的制造之路 | 英伟达断供GPU,中国大模型何去何从?
在当今时代,人工智能技术正以前所未有的速度发展,推动着各个领域的创新与变革。作为人工智能技术的核心引擎之一,高性能GPU扮演着至关重要的角色。在这个领域,英伟达的H100无疑是一款备受瞩目的高端产品。它针对高性能计算和人工智能应用而设计,具备强大的计算能力和高内存容量,以及先进的互连技术,可以有效提升集群中的计算效率,加速深度学习、计算机视觉、自然语言处理等领域的AI训练和推理任务。
|
机器学习/深度学习 存储 人工智能
【玩转 GPU】英伟达GPU架构演变
【玩转 GPU】英伟达GPU架构演变
515 0
【玩转 GPU】英伟达GPU架构演变
|
机器学习/深度学习 人工智能 缓存
英伟达用AI设计GPU算术电路,面积比最先进EDA减少25%,速度更快、更加高效
英伟达用AI设计GPU算术电路,面积比最先进EDA减少25%,速度更快、更加高效
219 0
|
1天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云GPU云服务器介绍_GPU租用费用_GPU优势和使用场景说明
阿里云GPU云服务器提供NVIDIA A10、V100、T4、P4、P100等GPU卡,结合高性能CPU,单实例计算性能高达5PFLOPS。支持多种实例规格,如A10卡GN7i、V100-16G卡GN6v等,应用于深度学习、科学计算等场景。GPU服务器租用费用因实例规格而异,如A10卡GN7i每月3213.99元起。阿里云还提供GPU加速软件如AIACC-Training、AIACC-Inference等。网络性能强大,VPC支持2400万PPS和160Gbps内网带宽。购买方式灵活,包括包年包月、按量付费等。客户案例包括深势科技、流利说和小牛翻译等。
|
1天前
|
Kubernetes Cloud Native 调度
《阿里云产品四月刊》—GPU Device-Plugin 相关操作(1)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
|
1天前
|
Kubernetes Cloud Native 调度
《阿里云产品四月刊》—GPU Device-Plugin 相关操作(2)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
|
1天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云GPU服务器租用费用_GPU服务器详解_A10、V100、T4、P4、P100
阿里云GPU云服务器提供NVIDIA A10、V100、T4、P4、P100等多种GPU卡,适合深度学习、科学计算等场景。实例性能强劲,单实例可达5PFLOPS混合精度计算,VPC网络支持2400万PPS和160Gbps内网带宽。GPU实例包括A10卡GN7i(3213.99元/月起)、V100-16G卡GN6v(3830.00元/月起)等,价格因配置而异。阿里云还提供GPU加速软件如AIACC-Training和AIACC-Inference,以及弹性计算实例EAIS。客户案例包括深势科技、流利说和小牛翻译等。

热门文章

最新文章