时代落在英伟达身上的是粒什么沙,国产GPU的机会又在哪?

简介: 天道好轮回,苍天饶过谁。近日英伟达称,他们被要求停止向中国出口两种用于数据中心的GPU A100和H100,AMD也表示,已经收到新的要求,MI250出口到中国将会受限。A100,MI250等高端型号的GPU最主要特点就是可以提供双精度FP64类型的算力,而国产GPU一般在FP16也就是半精度数据处理方面不差,在FP32类型的处理能力上表现就一般了,FP64几乎是缺失的状态。

天道好轮回,苍天饶过谁。近日英伟达称,他们被要求停止向中国出口两种用于数据中心的GPU A100和H100,AMD也表示,已经收到新的要求,MI250出口到中国将会受限。A100MI250等高端型号的GPU最主要特点就是可以提供双精度FP64类型的算力,而国产GPU一般在FP16也就是半精度数据处理方面不差,在FP32类型的处理能力上表现就一般了,FP64几乎是缺失的状态。

这里的1632是指输入变量的位数,比如FP16是指一个由16个二进制位所表示的变量,也就是说FP32FP64的差距是232次方(42亿)倍,这一方面将对我国人工智能领域的发展带来一定影响,另一方面也会制约我国勘探、气象、生物医药等对于数据精度要求较高领域的发展速度,甚至很可能是之前EDA禁令的后手组合,不过无论这个政策的本意如何,现在这颗时代的沙却让英伟达非常受伤。

被误伤的英伟达

8月25日英伟达公布了的二季度的财报和三季度的指引。从财报来看,二季度公司收入67亿美元,同比增长3%,环比下降19%,大大低于英伟达5月份预测的81亿美元。当季GAAP下每股摊薄收益为0.26美元,比去年同期下降72%,比上一季度下降59%;调整后每股收益为0.51美元,较上年同期下降51%,较上一季度下降63%,公司游戏部门收入已经大幅下滑,并且悲观预计公司营收第三季度还将同比下降17%,导致其股价在盘后交易中下跌约5%。而在限制令出台后,人们也越来越多担心,此前支撑英伟达业绩高速增长的数据中心业务未来将持续降温,因此英伟达在上周又跌了近5%

不过英伟达的业绩坠落,主要还是因为显卡的供需关系出现逆转,由于以比特币为代表的数字货币价格一蹶不振,导致GPU显卡的最大买方-“矿厂”大规模去产能,转手成为卖方,这其中最明显的信号就是自发布以来一直溢价销售的RTX30系列GPU显卡,在8月份瞬间打折也卖不出去了。

这次A100的限制令又将对英伟达的数据中心业务产生影响,因此英伟达的股价可能还难言底部。不过英伟达虽然很受伤,但是这对于限制令的初衷来说明显属于误伤,真正的目标还是人工智能和需要高精度数据模拟的工业软件。

 

人工智能的影响-精益求精的训练,不求甚解的推理

最近经常能够看到计算机专业的结业生在社交平台吐槽大厂的面试、笔试题难度卷出天际,但实际入职后所从事的工作,却偏向于重复劳动式的搬砖,在我拿到今年某大厂算法岗的笔试题之后,的确印证了这种情况,但这种现象也说明了人们在学校里学习时对于精细度要求很高,但真正走向工作当中虽然会急剧上升,但实际对于知识掌控精细度与全面度的要求却下降了。

类比在人工智能方面,可以做以下解读,一般来说人工智能分为训练和推理两个阶段,其中训练可以类比于人类的学习行为,一般在学习的过程中都要打破沙锅问到底,力求精益求精;而推理则类比于所学知识的落地,一般都要留有模糊空间,乃至不求甚解的效果可能也不差。虽然这个类比不完全吻合,但是基本的道理是没有差很多的,也就是模型训练时对精度的要求往往比AI推理时对精度的要求高得多。

从目前AI的发展趋势来看,也的确有着“大力出奇迹”的迹象,比如谷歌科学家直接在T5的论文指出:“越大的模型往往表现更好。这表现扩大规模可能仍然是实现更好性能的方式。”这一方面表现为的人工智能模型的参数规模越来越大,现在没有个上千亿参数的模型简直都不好意思和人打招呼,比如那个会自动艺术创作的DALL.E参数规模突破1500亿;

image.png

 

另一方面也是业界对于模型参数的精度要求越来越高,业界也越来越依赖高精度算力的处理能力提升。但是凭心而论很多模型都是精度要求过剩的,只要费心优化模型,这个限制令对于AI方面的影响尚不至于无解。

核心打击方向-工业软件

如果说人工智能方面降低精度还不会伤肋动骨,但是对于很多对于精度要求很高的领域来说这个限制令的打击可能就难以承受了。其实早在芯片禁令之前,最早被西方列入限制清单的就是以MATLAB为首的工业软件,而我们工业软件差距最大的部分就在于仿真与模拟。这方面一是要长时间的经验积累,另一方面对于算力精度的要求也比较高,精度下降往往意味着失之毫厘差以千里,对于医疗、气象、勘探等领域的工业软件来说尤其如此。

而且笔者认为这次高端GPU的禁令很可能是之前EDA禁令的手续组合拳,EDA从本质上讲是工业软件,美国限制EDA的使用本质上限制了我国自研先进制程的芯片的制造进程。而且我们看到目前国际EDA三巨头都纷纷推出自己的AI FOR EDA产品,从公开资料上看新思科技推出的DSO.ai,就在探索搜索空间、观察设计随时间的演变情况,同时调整设计选择、技术参数和工作流程,虽然这些AI FOR EDA的产品代码都不开源,但是笔者认为这些AI技术实际对于精度的要求肯定不低。

 

精度优化-曲线救国的方向

正如前文所说,我国国产的GPU往往在双精度类型FP64方面,目前都没有什么突破性进展,这在之前A100没有限制之前还无所谓,但目前限制来了,针对半精度FP64乃至8位整数类型(int8)的专门优化工作已经势在必行。

据笔者所知这方面业界已经有所探讨,以深度神经网络为例,神经元可以抽象为对于输入数据乘以权重以表示信号强度乘积加总,再由ReLU、Sigmoid等应用激活函数调节,本质是将输入数据与权重矩阵相乘,并输入激活函数,对于有三个输入数据和两个全连接神经元的单层神经网络而言,需要把输入和权重进行六次相乘,经典CNN中无论GEMM的矩阵乘法运算还是卷积的乘加计算都是使用fp32也就是用32位字长的数字来表示,在这种情况下我们可以使用int 8作为输入表示此以过程,其计算量至少可以下降75%。尤其在图像处理的场景下,通常由fp32到int8的转换,精度损失是低于1%的。因此在针对int8类型的计算加速也就是业界都在探讨的话题。

这方面英特尔酷睿12代中的VNNI指令集很好的完成了这个加速的过程,比如火山引擎在VNNI的优化下int8上实现了从人脸照片到三维模型的图像映射。腾讯通过一个FP32向int8的转换以及VNNI的加持,实现了一个可以实时生成用户3D头像的模型,在精度降低1%的情况下,性能还提升了4.23倍。另外英特尔和阿里云在Ice Lake上也针对自然语言处理的Transformer模型进行了深度优化,通过VNNI的加速实现了3倍的性能提升。

而且针对FP32向int8的转换工作,英特尔提供一款名为LPOT的开源工具,使用LPOT用户基本上不需要写代码,就可以直接将TensorFlow的模型,从FP32换成int8,同时保证非常高的精确性,这里推荐给大家。

 

写在最后

无论是高精度GPU还是EDA是一种需要长时间积累才能取得突破的领域,而我们在IT基础设施领域的研发力量太薄弱了,以EDA为例,国内所有EDA厂商的研发人员加在一起可能都不到2000人,还不如Synopsys一家的开发力量强,想突破一要增加研发人员,二要沉下心来积累,结硬寨打硬仗,不要试图走捷径。

 

 

 

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
存储 人工智能 芯片
多GPU训练大型模型:资源分配与优化技巧 | 英伟达将推出面向中国的改良芯片HGX H20、L20 PCIe、L2 PCIe
在人工智能领域,大型模型因其强大的预测能力和泛化性能而备受瞩目。然而,随着模型规模的不断扩大,计算资源和训练时间成为制约其发展的重大挑战。特别是在英伟达禁令之后,中国AI计算行业面临前所未有的困境。为了解决这个问题,英伟达将针对中国市场推出新的AI芯片,以应对美国出口限制。本文将探讨如何在多个GPU上训练大型模型,并分析英伟达禁令对中国AI计算行业的影响。
1600 0
|
机器学习/深度学习 人工智能 芯片
一文详解多模态大模型发展及高频因子计算加速GPU算力 | 英伟达显卡被限,华为如何力挽狂澜?
近年来,全球范围内的芯片禁令不断升级,给许多企业和科研机构带来了很大的困扰,需要在技术层面进行创新和突破。一方面,可以探索使用国产芯片和其他不受限制的芯片来替代被禁用的芯片;另一方面,可以通过优化算法和架构等方法来降低对特定芯片的依赖程度。
|
7月前
|
人工智能 缓存 机器人
【2024】英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍
英伟达在加州圣荷西的GTC大会上发布了全新的Blackwell GPU,这款拥有2080亿个晶体管的芯片将AI性能推向新高度,是公司对通用计算时代的超越。Blackwell采用多芯片封装设计,通过两颗GPU集成,解决了内存局部性和缓存问题,提供20 petaflops的FP4算力,是上一代产品的5倍。此外,新平台降低了构建和运行大规模AI模型的成本和能耗,使得大型语言模型推理速度提升30倍。黄仁勋表示,Blackwell标志着AI算力在近八年内增长了一千倍,引领了技术边界拓宽的新趋势。
|
存储 人工智能 安全
探秘英伟达显卡的制造之路 | 英伟达断供GPU,中国大模型何去何从?
在当今时代,人工智能技术正以前所未有的速度发展,推动着各个领域的创新与变革。作为人工智能技术的核心引擎之一,高性能GPU扮演着至关重要的角色。在这个领域,英伟达的H100无疑是一款备受瞩目的高端产品。它针对高性能计算和人工智能应用而设计,具备强大的计算能力和高内存容量,以及先进的互连技术,可以有效提升集群中的计算效率,加速深度学习、计算机视觉、自然语言处理等领域的AI训练和推理任务。
|
机器学习/深度学习 存储 人工智能
【玩转 GPU】英伟达GPU架构演变
【玩转 GPU】英伟达GPU架构演变
620 0
【玩转 GPU】英伟达GPU架构演变
|
机器学习/深度学习 人工智能 缓存
英伟达用AI设计GPU算术电路,面积比最先进EDA减少25%,速度更快、更加高效
英伟达用AI设计GPU算术电路,面积比最先进EDA减少25%,速度更快、更加高效
276 0
|
1月前
|
弹性计算 人工智能 Serverless
阿里云ACK One:注册集群云上节点池(CPU/GPU)自动弹性伸缩,助力企业业务高效扩展
在当今数字化时代,企业业务的快速增长对IT基础设施提出了更高要求。然而,传统IDC数据中心却在业务存在扩容慢、缩容难等问题。为此,阿里云推出ACK One注册集群架构,通过云上节点池(CPU/GPU)自动弹性伸缩等特性,为企业带来全新突破。
|
3天前
|
人工智能 JSON Linux
利用阿里云GPU加速服务器实现pdf转换为markdown格式
随着AI模型的发展,GPU需求日益增长,尤其是个人学习和研究。直接购置硬件成本高且更新快,建议选择阿里云等提供的GPU加速型服务器。
利用阿里云GPU加速服务器实现pdf转换为markdown格式
|
4月前
|
机器学习/深度学习 编解码 人工智能
阿里云gpu云服务器租用价格:最新收费标准与活动价格及热门实例解析
随着人工智能、大数据和深度学习等领域的快速发展,GPU服务器的需求日益增长。阿里云的GPU服务器凭借强大的计算能力和灵活的资源配置,成为众多用户的首选。很多用户比较关心gpu云服务器的收费标准与活动价格情况,目前计算型gn6v实例云服务器一周价格为2138.27元/1周起,月付价格为3830.00元/1个月起;计算型gn7i实例云服务器一周价格为1793.30元/1周起,月付价格为3213.99元/1个月起;计算型 gn6i实例云服务器一周价格为942.11元/1周起,月付价格为1694.00元/1个月起。本文为大家整理汇总了gpu云服务器的最新收费标准与活动价格情况,以供参考。
阿里云gpu云服务器租用价格:最新收费标准与活动价格及热门实例解析