展望2024: 中国AI算力能否引爆高性能计算和大模型训练的新革命?

简介: 2023年是人工智能发展的重要转折年,企业正在从业务数字化迈向业务智能化。大模型的突破和生成式人工智能的兴起为企业实现产品和流程的革新提供了先进工具,引领产业迈入智能创新的新阶段。在这个新时代,企业不再仅关注如何增强智能化能力,而更加注重如何利用人工智能实现产品和流程的革新。

★算力;算法;人工智能;高性能计算;高性能;高互联;生成式人工智能;StableDiffusion;ChatGPT;CoPilot;文本创建;图像生成;代码编写;大语言模型;多模态大模型;预训练;边缘计算;液冷;HPC;冷板式液冷;Bard;AlphaGo;深度学习;AI服务器;GPU服务器;H100;A100;B100;X100;InfiniBand;L40S;PC;AI PC;PC集群; CoWoS; SoIC+CoWoS;MI300;PC farm


2023年是人工智能发展的重要转折年,企业正在从业务数字化迈向业务智能化。大模型的突破和生成式人工智能的兴起为企业实现产品和流程的革新提供了先进工具,引领产业迈入智能创新的新阶段。在这个新时代,企业不再仅关注如何增强智能化能力,而更加注重如何利用人工智能实现产品和流程的革新。


大模型和生成式人工智能的发展将引发计算范式、产业动能和算力服务格局的变革。未来,人工智能算力基础设施将向高性能和高互联等方向演进,以满足大规模参数和数据集的训练和调优需求。


从感知智能到生成式智能,人工智能算力需求迅速增长,推动了人工智能服务器市场的发展。全球人工智能硬件市场规模预计将从2022年的195亿美元增长到2026年的347亿美元,而中国市场的人工智能服务器市场规模预计在2027年将达到134亿美元。


中国市场对智能算力供给能力的衡量标准正在加速演变,从硬件性能转向应用效果。技术提供商需要以应用为导向、系统为核心,构建灵活可扩展的集群,提高算力利用率,以满足市场对资源需求。与此同时,人工智能技术的持续创新和落地将在知识管理、对话式应用、销售和营销、代码生成等领域带来广泛应用。


为什么要对算力的发展和预测进行研究呢?从科技创新的角度来看,算力是推动人工智能、大数据、物联网等技术发展的关键基础设施。具有世界领先水平的算力可以极大地促进我国在全球科技竞争中的地位,推动创新型国家建设的进程。对于经济发展来说,算力提升可以为产业互联网、智慧城市、智能制造等产业的发展提供强大的动力。随着算力的进一步增强,可以进一步优化产业链条,提高生产效率,拉动经济增长。另外,对于信息社会来说,日益增强的算力将进一步推进信息化进程,使信息化成为我国社会发展的重要驱动力。为公共服务、教育、医疗、交通等领域的信息化提供更好的基础支撑。蓝海大脑致力于为企业提供创新的智能化解决方案。在人工智能领域,通过不断创新和落地,为企业的数字化转型和算力提升提供有力支持。



中国人工智能算力发展现状


一、人工智能发展迈入新阶段


1、全球:生成式人工智能兴起,产业步入关键转折点


2023年人工智能经历破圈式发展,以ChatGPT、GitHub CoPilot和Stable Diffusion等生成式人工智能应用和工具为代表,极大地提升了文本创建、图像生成、代码编写和研发流程等工作智能体验,显著提高了生产力和生产水平。


大模型和生成式人工智能兴起表明人工智能正从特定任务如图像识别和语音识别迈向更为拟人的智能水平,具备自主学习、判断和创造等能力。对企业而言,关注点已从增加智能化转向如何利用人工智能实现产品和流程革新。大模型通过海量数据训练和模型调优,展现出更精准执行和更强大场景可迁移性,为元宇宙、城市治理、医疗健康、科学研究等综合复杂场景中广泛应用提供更为优越的解决方案。


全球企业对生成式人工智能的态度


当前,全球各国均致力于加强对大型模型和生成式人工智能的支持,推动人工智能技术迅速发展和广泛应用。以下是各国主要动向:


1)美国


一直在推动人工智能领域创新,通过支持基础和应用研究,建立在大模型和生成式人工智能方面的领先地位。白宫发布《国家人工智能研发战略计划》,鼓励持续创新,并强调在控制安全风险前提下推动人工智能应用。


2)欧洲


受多方面因素影响,欧洲地区对技术降本增效的关注度较高。然而,对生成式人工智能在安全和隐私方面存在较多顾虑,因此欧盟通过《人工智能法案》强调对透明度和风险评估要求,并加强对伦理和数据隐私监管。


3)亚太地区


亚太地区国家,如中国、印度、新加坡、韩国和日本,都在积极推进国家人工智能战略,着力推动大规模生成式人工智能项目实施。各国政府通过投资和政策支持,推进人工智能在不同领域广泛应用。


4)中国


中国政府大力支持生成式人工智能研究,企业和科研机构也在加速推动相关研究和应用。中国人工智能的发展在东南亚地区产生溢出效应,促使该地区相关产业发展。


针对复杂模型和大规模训练需求,市场对高性能计算资源需求不断提升。高算力、高互联、算力泛在性和多元化成为关键趋势,推动算力生态的开放和融合。


不同领域模型类型丰富多样,为企业业务智能化提供广泛可能性。大模型在创作、自动驾驶、零售、医疗和金融等领域展示强大的应用潜力,推动整个人工智能产业链发展。


生成式人工智能生态价值链图谱


二、人工智能算力及应用


1、算法和模型: 加速模型迭代以探索行业实践


人工智能的发展受大模型参数扩大推动,由技术领军企业如OpenAI、谷歌、Meta、微软等主导,千亿到万亿级参数大模型正迅速崛起,引领智能涌现的潮流。


1)大语言模型成为突破口


大语言模型在自然语言处理领域取得显著进展,支持翻译、文章生成、问题回答等任务。国内外企业不断尝试不同技术路线的大语言模型,但通用模型无法提供创新企业持续竞争力,因此垂直领域的数据、场景化模型优化和工程化解决方案成为关键。


2)多模态模型的升级


大模型技术发展推动多模态模型不断升级。多模态模型实现图像、文本、语音等模态的统一表示和相互生成,覆盖多个领域。头部企业在多模态大模型领域布局,并在通用性和子领域优化上不断提升体验和技术。


3)智能涌现受多因素影响


智能涌现不仅与参数量相关,还受模型设计、数据集、训练方法、模型架构、任务类型和计算资源等多方面因素影响。企业需根据任务和模型设计确定参数量,而算力服务商需要提供全方位服务,包括硬件、软件和算法,共同提高大模型准确性和可用性。


4)预训练大模型成为选择


预训练大模型是人工智能产业发展重要选择,通过大规模数据和知识预训练,结合应用场景微调,实现高效率“工业化”开发。


2、AI软件基础设施: 加速大模型的应用落地


人工智能持续发展离不开底层服务支撑和软件平台优化。尤其在大模型技术应用和应用落地过程中,面临着算力、数据、效果和成本等多维度挑战。


1)算力资源需求


大模型技术创新和应用要求海量的算力资源,尤其在分布式训练中,对于拥有大规模加速卡的人工智能服务器集群需求非常高。缺乏足够的算力资源将影响对大模型的高质量技术创新。


2)高效算力供给


大模型训练不仅需要庞大算力规模,还需要考虑算力平台设计的复杂性。大规模算力节点可能导致效率下降,因此在算力平台设计上需要考虑如何提高算力使用效率,以降低训练时长和算力成本。


3)优质数据服务


优质数据集对于训练高质量模型至关重要。在大模型预训练阶段,对数据进行精准、高效清洗、集成、变换和规约,提高数据质量,降低噪音和错误数据的影响,从而提升算法准确性和泛化能力。


此外,边缘计算对人工智能和机器学习的依赖度逐渐提高,成为未来发展趋势。边缘人工智能、5G边缘计算、边缘即服务等将在边缘计算技术中发挥重要作用。全球边缘人工智能基础设施的发展预计将呈现显著增长,成为边缘计算技术重要组成部分。


全球边缘人工智能基础设施处理器和加速器市场规模,2022-2027


3、配套设施:液冷有望成为算力中心标配,国产算力率先推进


液冷有望成为智算中心主流。随着AI计算、HPC计算等高性能计算需求的不断提升,CPU、GPU等计算芯片正朝着高算力和高集成方向发展,这同时导致了单颗计算芯片功耗的显著提升。目前,Intel的多款CPU芯片的热设计功耗(TDP)已经超过350W,而Nvidia的H100系列GPU芯片的TDP更高达700W。在通用服务器中,CPU/GPU等计算芯片的功耗占比约为50%左右,而在AI服务器中,计算芯片的功耗占比更高达80%以上。


CPU/GPU TDP 变化趋势


展望明年,运营商将迅速推进液冷技术的应用,计划在2024年进行规模测试。三大运营商此前联合发布《电信运营商液冷技术白皮书》,旨在加速液冷技术采用。按照白皮书的规划,2023年将重点进行技术验证,全面验证液冷技术的性能,以降低能源使用效率(PUE),并积累规划、建设与维护等技术能力。到2024年,运营商将启动规模测试,其中新建的数据中心项目将有10%进行规模试点应用液冷技术。到2025年,预计将有50%以上的数据中心项目应用液冷技术。


运营商液冷应用规划


目前,液冷方式主要以冷板式液冷为主导。冷板式液冷相对于其他液冷技术,改造难度低,成本可控,因此市场应用较为广泛。据IDC报告,截至2023年上半年,我国服务器中冷板式液冷的比例已达到约90%,而浸没式液冷的渗透率仅为10%。浸没式液冷的大规模应用仍然面临核心技术问题,需要解决冷却工质等方面的挑战。


液冷技术对比


4、人工智能算力服务和云: 根据算力需求优化服务模式


近年来,人工智能的广泛应用带来更高算力需求,推动算力提供方式的重大改变。企业IT基础架构逐渐从传统采购模式向公有云迁移,人工智能aaS服务成为用户便捷、快速部署应用的选择。然而,人工智能应用对算力提出更高要求,呈现出算力资源集中、技术门槛提高等特征。大模型和生成式人工智能的快速发展将为人工智能算力服务市场带来新机遇。


1)大模型训练和推理需要更大的算力投入,特别是生成式人工智能处于起步阶段,随着应用的普及,更多用户将投身其中。对于短期内不具备自建人工智能算力数据中心用户,使用算力服务成为理想选择。


2)超大规模云服务器提供商和人工智能解决方案提供商具有强大技术能力和大模型开发基础,能够进行快速迭代。人工智能算力服务有助于中小企业快速应用生成式人工智能技术,为业务发展提供迅速支持。


当前用户主要面临如何将人工智能技术应用到企业业务场景的挑战,需要合作伙伴的技术和时间投入,同时降低开发门槛,让人工智能更好地服务各行业。


5、应用:企业积极投入以满足大模型时代的应用需求


在人工智能单点技术应用方面,根据 2023年人工智能技术的应用现状调研的结果,计算机视觉仍为最主要的应用技术类型,以生物识别和图像技术为主,语音技术的应用程度紧随其后,而自然语言处理仍处在相对早期发展阶段,从调研的样本来看,已经采用的企业不超过三成,但从未来三年计划采用情况来看,自然语言处理类应用将快速落地,66%的企业表示将在未来三年采用该应用场景。


对于企业而言,人工智能对企业带来的价值正愈加显著,尤其体现在提高资产利用率、提高员工生产及研发效率、提升产品与服务三方面。据IDC调查显示,企业在未来三年由人工智能所产生的价值将大幅提升,尤其在提高资产利用率、降低人力成本、提升洞察力、提升决策速度和优化用户体验等几个方面。


人工智能目前及未来三年对企业产生的价值


生成式人工智能应用在2023年迅速发展,将为各行业带来更多机遇。不仅可以提高效率、质量和创新能力,还能加速实际应用的渗透,特别是在金融、制造、医疗等领域,为行业发展带来新的竞争优势。


1)金融行业


金融行业对人工智能投入迅速增加,主要集中在风险管控、反欺诈、基于RPA的流程自动化等方面。在大数据支持下,银行通过建立专属信贷评级和审批系统,显著降低借贷风险,提高效率,实现便捷化、智能化、绿色化的目标。


2)智能制造


人工智能的革新推动了制造业的发展,智能产线、预测性维护、自动化生产、运营优化和实时监控等应用场景得到广泛采用。未来,智能决策、远程操作以及生成式人工智能将加速在制造业的落地应用。


3)智能产线


实现产品性能和质量可视化预测,帮助企业优化生产计划和提高产品设计效率。


4)预测性维护


通过数据收集和分析,预测设备故障,减少停机时间,提高生产效率。


5)自动化生产


控制和优化生产线自动化过程,包括生产计划、机器参数调整和供应链管理。


6)运营优化和实时监控


通过大数据分析,揭示潜在问题,提供优化建议,实现生产过程的改进。


7)智能决策和远程操作


实现设备和生产线的自主决策和远程操作,提高自适应性和效率。


8)智慧医疗


人工智能在医疗行业广泛应用,影响医学诊断、患者监测、个性化治疗等方面。深度学习技术和大数据分析提高了医学图像的自动分析,实现了更准确的诊断,同时通过传感器和实时数据分析,提供个性化治疗建议,加速新药研发。


9)AI4S (人工智能应用于科学)


科学领域利用人工智能进行数据分析、实验模拟、新药研发等,推动科学研究取得更多阶段性成果。


中国人工智能应用场景发展,2023


三、AI 算力基建迎来高增


2023年上半年,OpenAI在AI领域崭露头角,推动一系列重要技术进展。


自然语言处理方面,ChatGPT和Google的Bard等对话机器人的问世显著促进该领域的发展,引领新一轮语言模型的涌现,使语言处理能力大幅提升。


自动机器学习(AutoML)方面取得进一步突破,实现对数据预处理和超参数调优等任务的自动化,有效缩短数据科学家的工作时间,提高工作效率。


生成式AI技术在上半年同样迎来成熟期,根据用户提示生成文本、图像等内容,广泛应用于创作和辅助工作领域。


深度学习算法不断改进,在图像分类、目标检测等任务上性能显著提升,已广泛运用于自动驾驶、医疗等行业。


为满足AI计算需求,边缘计算技术迎来进一步发展,使得数据处理更为实时高效,同时Google推出新一代TPU加速芯片。



1、人工智能经历低谷与繁荣后迎来爆发增长阶段


人工智能的发展经历三个关键阶段:推理期,知识期,机器学习期。

推理期指的是从20世纪50年代到70年代初,通过赋予机器逻辑推理能力,就能实现机器的智能。

知识期则是上世纪70年代,人们逐渐认识到判断和决策不仅需要推理能力,还需要大量知识。

机器学习期,从20世纪80年代开始,机器学习成为一个独立的学科领域,相关技术不断涌现。深度学习模型和AlphaGo等增强学习的雏形在这一时期被发明。尽管早期系统效果不理想,但是到2010年至今,语音识别和计算机视觉等领域取得巨大进展,围绕语音和图像等人工智能技术的创业公司大量涌现,实现从量变到质变的飞跃。


人工智能技术发展历程


2、全球AI市场快速升温,新AI应用不断涌现


全球AI市场在AI算法不断发展迭代的推动下呈现迅猛增长,带来新的AI应用不断涌现,并推动现有应用快速整合AI功能。据SensorTower数据,2023年上半年AI应用下载量同比增长114%,超过3亿次,创下2022年全年水平。ChatGPT、Lensa AI等AI应用备受用户认可,AI应用内购收入在2023年上半年同比增长175%,接近4亿美元,美国市场占据AI应用内购收入的55%。


3、算力需求高增,催生新经济增长点


生成式AI发展成为当前趋势,对算力需求显著提升,进而推动GPU需求增长。生成式AI整合GAN、CLIP、Transformer、Diffusion等算法,以及多模态等AI技术,数据、算力、算法是其不可或缺的三大关键。据TrendForce数据,生成式AI需要大量数据进行训练,尤其对高性能GPU需求巨大。以ChatGPT背后GPT模型为例,其训练参数从2018年的约1.2亿个增长至2020年的近1800亿个,以NVIDIA A100为计算基础,未来商用可能需要2万颗至3万颗GPU。


生成式AI算力不仅提升新兴产业发展,为传统产业转型升级提供支撑。算力融入传统制造业推动企业智能化改造和数字化转型,在新兴产业中算力的整合促进新业态、新模式、新应用发展,成为推动新兴产业增长的重要动力。算力释放数据等新型生产要素创新活力,云计算、大数据、区块链、元宇宙等的兴起都依赖于强大的算力。


Chatgpt潜在算力需求


算力发展全球格局


一、算力: AI 服务器渗透率提升,驱动计算、数通硬件需求


AI 芯片军备竞赛将持续推动产品升级,中长期供给或将多元化。中短期看,AI 模型发展、竞争仍将推升 AI 芯片出货量和规格;长期看,AI 芯片需求将注重投入产出比和总拥有成本(TCO),重心预估将从 AI 大模型训练转向 AI 垂直模型训练和 AI 推理。根据 Yole 报告,AI 服务器(含 GPU 及其他加速器)2028 年渗透率有望从 2023 年的接近 10%增至超过 18%,其中约 70%-75%为 GPU 服务器。


加速器服务器规模及 GPU 服务器占比(左侧百万部;右侧%)


1、训练算力端:英伟达一枝独秀,AMD、Intel 迎头追赶


英伟达占据AI训练领域主导地位,目前AI芯片市场份额达70%。其数据中心GPU产品A100和H100广泛应用于AI训练领域。英伟达在2023年11月推出H100的内存升级版本H200,同时预计在2024年推出B100,2025年推出X100,加速芯片升级的节奏,迭代周期缩短至1年。


在竞争对手方面,AMD预计在2024年服务器GPU订单将超过20亿美元,而Intel到2024年的服务器GPU订单也将达到20亿美元。尽管这两家公司明年服务器GPU出货有望增加,但全年总出货量可能仍然低于英伟达数据中心业务单季度规模。


英伟达数据中心 GPU 技术路线图


2、推理算力端:百舸争流,技术路线更加多元


AI推理算力需求相较于训练较低,主要是因为推理仅涉及前向计算,无需复杂的反复试错和参数调整。对于推理任务,可通过模型优化等手段在一定精度损失情况下减少算力需求。因此,GPU、CPU、FPGA和NPU等硬件都有适用的场景和机会。


英特尔第四代服务器CPU在AI推理性能上显著提升,尤其是Sapphire Rapids(2023)在ResNet-50基准测试中表现接近T4 GPU,性能提升有助于CPU在AI推理市场份额上取得竞争优势。


GPU在推理和模型微调方面具有差异化优势。对于头部客户,如Open AI和Meta,需要低延时解决方案,同时GPU资源也可以在空闲时分配给AI训练任务,提高硬件利用率。因此,A100、H100等GPU芯片仍然在AI推理任务中得到广泛使用。而英伟达的中端GPU L40S除适用于推理,还适合中等参数模型的微调训练。AMD、Intel等公司的旗舰AI芯片也宣称在AI训练和推理方面具有优势,适用于复合复杂场景。


自研芯片可能成为云服务商在推理硬件方面突破口。由于英伟达及其CUDA生态在推理端的壁垒相对较低,云服务商有机会从推理端开始实现自研芯片的AI布局。在某些固定功能的AI推理场景,如推荐搜索等,也适合发展自研ASIC芯片。目前,谷歌的TPU、亚马逊的Inferentia等自研芯片已经得到广泛应用,微软也推出首个自研AI芯片Maia。多家公司,如迈威尔与亚马逊、博通与谷歌,也在定制ASIC业务上有合作。


AI 计算芯片产业链一览(2023/12/1)


3、AI 基建驱动光通信进入高成长通道


AI网络升级是释放AI算力的重要基础,特别是以英伟达为代表的AI网络结构升级,推动光器件、光模块和交换机的需求增加。英伟达整合GPU算力和Mellanox的互联技术,在InfiniBand交换机市场占据主导地位,但未来以太网交换机的渗透率可能会提高。


AI大模型的崛起推动高速率数通光模块的加速放量,特别是在电信和数通市场。由于云服务龙头增加对AI集群的投资,高端光通信需求上升,400G和800G光模块的组件供不应求。LightCounting预测2024年以太网光模块销售额将同比增长近30%,各个细分市场也将逐步恢复增长。在经历2023年全球光模块市场规模同比下降6%后,2024-2028年的复合年增长率(CAGR)预计将达到16%。光模块龙头公司Coherent表示,由AI驱动的全球800G、1.6T和3.2T数通光模块,相关行业规模在2024-2028年的5年CAGR可能超过40%,从2023年的6亿美元增长至2028年的42亿美元。

2018-2028E 全球光模块销售额(百万美元)


光模块领导者Coherent在整个产业链中具有显著的优势,特别是在高门槛的上游光芯片技术方面。Coherent不仅在光芯片技术上领先,而且拥有强大的客户壁垒,使其能够率先推出产品,从而在整个产业链中保持竞争优势。光模块生产主要涉及组装性业务,因此在成本控制等经营方面的能力变得更为关键,国内厂商在这方面具有竞争优势。在LightCounting发布的2022年全球光模块供应商产值榜单中,国内厂商表现抢眼:中际旭创排名第一,华为(海思)位居第四,光迅科技升至第五,海信位居第六,新易盛位居第七,华工正源位居第八。


光模块产业链一览


英伟达通过其AI解决方案推动InfiniBand交换机需求增长。由于InfiniBand在高性能计算和AI集群中的低时延优势,其在2023年6月的Top500超级计算机榜单中表现强劲,达到241套,占比为48.2%。英伟达在2020年收购Mellanox,借助其在InfiniBand架构方面的产品优势,目前已占据20%以上的市场份额。据LightCounting预测,英伟达InfiniBand交换机ASIC的销售额在2023年将是2022年销售额的近三倍,2023-2028年的复合年均增长率可能达到24%。


前 500 超级计算机高速以太网和 InfiniBand 系统数量(套)


大规模AI部署中,以太网方案的渗透率提升,英伟达积极发展以太网交换机以迎接竞争。以太网在多供应商生态系统和性价比等方面具有优势,其性能提升加剧与InfiniBand的竞争,客户将受益于整体性价比的提高。云巨头计划在AI基础设施中采用开源以太网交换机。


超以太网联盟(UEC)于2023年7月宣布,通过全行业合作,将为HPC和AI开发基于以太网的通信栈架构,成员包括AMD、博通、Arista、思科、英特尔、Meta、微软等公司。LightCounting预计,以太网交换机销售额在2023-2028年的复合年均增长率达到14%。Cisco和Arista是全球市场份额前两位的以太网交换机厂商,截至2023年第二季度的份额分别为47.2%和10.4%。英伟达通过Spectrum-X方案(Spectrum 4交换机+BlueField-3 DPU)积极参与竞争。


2021-2028E 交换机市场规模(百万美元)


3、AI 终端创新大势下,消费电子迎来新机遇


2023年下半年,AI终端备受关注,手机和PC制造商纷纷发布新品。在手机领域,苹果、三星、谷歌、高通、联发科等厂商推出的A17 Pro、Exynos 2400、Tensor G3、骁龙 8 GEN 3、天玑 9300处理器强调其AI功能。


在PC领域,Intel和AMD均启动AI PC CPU计划,高通也推出基于Arm架构的X Elite处理器,支持运行130亿参数模型。小米、vivo、联想等品牌也相继发布基于新一代AI终端处理器的产品。


预计到2027年,AI PC的普及率有望达到60%以上,而2024年将成为这一趋势的关键窗口。根据Canalys的预测,AI PC将在2024年年中开始迎来大规模增长,主要推动因素包括Intel等处理器厂商的新品发布以及Windows的最新版本将于2024年增加AI功能。英特尔估计未来两年将出货1亿台AI PC,而高通等新竞争者也表示OEM合作伙伴将于2024年中开始发布搭载骁龙X Elite的AI PC产品。Canalys预计到2027年,AI PC的出货量将超过1.75亿台,占总PC出货量的60%以上。


2022-2027E AI PC 渗透率


AI终端用户长期愿景主要聚焦在个性化需求上。典型的AI终端应用包括AI个人助理、健康监测、文本扩写与问答、音频、图片、会议和视频的识别、分类以及后期处理,以及设备端训练等功能。一些应用已经在现有设备中得到广泛应用,而一些前沿的AI应用,如设备端训练,尚未完全成熟。


AI终端用户核心需求包括对数据本地化的隐私关切、对AI应用低延时和离线功能需求,以及对AI大模型个性化需求。在个性化方面,AI大模型的个性化有望成为推动AI终端长期发展的核心竞争力。在设备端训练中,AI终端将在云端预训练模型的基础上,结合用户的本地数据进行微调,具有更接近用户个人习惯的本地样本,同时可以根据新数据进行可持续训练,实现持续学习。


AI 终端应用场景汇总


微软和Meta正在积极抢占跨终端AI机遇,通过与合作伙伴如Intel、AMD、高通等展开合作,推广开源项目和AI工具,形成生态壁垒。利用跨终端用户规模来吸引更多开发者,形成正向循环。


在AI终端方面,内存规格升级成为趋势,例如高通的骁龙8 GEN 3已推动LPDDR5X和LPDDR5T产品的交付,速度达到9.6Gbps。此外,存算一体在AI终端上也有望获得发展,例如三星的LPDDR5-PIM方案可提供4.5倍的性能提升和72%的功耗节省。


混合AI方案即终端和云端的协同工作,成为AI终端向无边界外延趋势。混合AI适用于各种边缘终端,包括手机、PC、XR、物联网设备和汽车等,有助于推动云端AI的发展。


混合 AI 三种案例


二、先进封装大势所趋,3D 集成时代终将来临


随着半导体制程逐渐接近物理极限,先进封装成为提高芯片效能、节省硬件空间、减少功耗和延迟的必要途径。HPC和AI应用对高算力、低延迟、低功耗的需求推动先进封装技术的发展。台积电、英特尔和三星的2.5D封装技术以及逐渐兴起的3D封装技术在此领域有着长期发展。CoWoS(台积电2.5D封装技术)和HBM(高带宽内存)是生产AI GPU中增长最迅速的领域之一。先进封装的迅速发展也带动了相关设备需求的激增。展望未来,重点关注2.5封装技术产能的扩张和3D封装技术的发展态势。


1、先进封装市场规模增长可期,2.5D/3D 集成显未来潜力


2022-2028 年间先进封装市场规模的 CAGR 达 10.6%,HPC 和 AI 应用或为主要推力。据 Yole数据显示,2022 年先进封装市场规模达 443 亿美元,占整体 IC 封装市场的48%;2028 年全球封装市场规模为1360亿美元,其中先进封装为786亿美元,占比将提升至 57.8%。目前,先进封装市场以移动和消费终端应用为主,由硅含量增加和封装技术复杂化驱动。


2022-2028 年全球先进封装市场规模预测(按终端应用)


2、台积电 CoWoS 急扩产,关注设备订单及技术趋势


CoWoS是台积电的2.5D封装技术,分为CoW和WoS两部分,其中WoS是将两部分晶片堆叠在基板上的封装。CoWoS根据中介层的不同分为三种技术架构,对于AI时代具有重要意义。


1)CoWoS-S采用硅中介层,是HBM和处理器互连的主流方案,在AI芯片中用于执行训练和推理任务。其高带宽优势显著提升性能,目前是主流高性能AI处理器的首选方案。大客户如英伟达、AMD、博通、Marvell等的订单增加,台积电紧急扩产,2024年的CoWoS月产能预计将达到3.5万片。


2)CoWoS-R采用RDL中介层,降低成本,预计在2024年开始量产。相较于CoWoS-S,CoWoS-R引入重新布线层(RDL)并具有成本优势。部分硅中介层产能可能被转移到有机中介层,以满足越来越多厂商选择成本更低的CoWoS-R的需求。


3)CoWoS-L采用LSI和RDL中介层,支持更多HBM堆叠,可能应用于英伟达的B100。CoWoS-L通过在中介层加入主动元件LSI实现更高的设计复杂性,可支持更多HBM的堆叠。CoWoS-L目前处于验证阶段,预计在商业化时采用Chiplet技术和台积电的CoWoS-L封装技术,英伟达B100可能是首个采用这项技术的产品。


CoWoS 通过硅通孔(TSV)实现各层元件的集成和互联


台积电前、后段整合的 SoIC+CoWoS 也是未来解决 HPC 芯片面临摩尔定律放缓的关键点。SoIC 是业界第一个高密度 3D 小芯片堆叠技术,通过 CoW(Chip-on Wafer)封装技术将不同尺寸、功能、节点的芯粒异质整合。SoIC 为前段 3D 封装技术,集成到主要用于消费电子产品的 InFO 和主要用于 HPC 和 AI 的 CoWoS 两项后段 2.5D 封装技术中。由于 3D 封装制程近似芯片制造,故更有利于芯片生产商主导。AMD MI300 率先采用 SoIC+CoWoS。如若该产品效果良好,或可助 SoIC+CoWoS 在 AI 芯片市场攻城略地。


台积电 SoIC 与 CoWoS、InFO 集成


台积电出货量进入磨底阶段,AI 芯片将在2024年助推3nm制程收入贡献提升。半导体代工龙头台积电2023Q3营收172.8亿美元(YoY-14.6%,QoQ+10.2%),季度晶圆出货量 290.2万片等效12寸晶圆(YoY-27%,QoQ-0.5%),反映市场需求虽有企稳,但仍处磨底阶段。随着高通、联发科、AMD、英伟达等大客户宣布跟进3nm制程,新技术发展对产业迭代周期的推动作用。台积电也在2023Q3 业绩会上称,芯片市场非常接近底部,2024 年将是公司的健康成长之年。


台积电收入结构——按制程(%)


采用65nm制程的硅中介层掣肘CoWoS-S产能,利好外溢。受制于供应链瓶颈,英伟达积极打造非台积电 CoWoS 供应链。联电由此受益,计划将硅中介层月产能从目前的3千片增至1万片,届时硅中介层产能将与台积电持平。原本就小量承接台积电WoS 释单的日月光和积极争取CoW订单的Amkor则负责后段WoS封装。


CoWoS 流程示意图


3、存储原厂竞逐 HBM,技术路线分化


AI 重振存储市场信心,原厂逐鹿 HBM3。高带宽内存HBM可满足AI训练所需的大规模数据搬运需求,Yole 预估 AI 服务器 DRAM 位元需求量增速将高于通用服务器,2021-2028E CAGR 分别为 47%、24%,该机构预估 AI 服务器 HBM出货量将从 2022 年的 2EB 增至 2028 年的 30EB。竞争格局方面,根据 TrendForce 报告,SK-海力士 2023-2024E 市场份额预估维持在 45%-50%区间,三星随着 HBM产能扩张,份额有望提升至 2024 年的 47%-49%,与 SK-海力士并驾齐驱。


AI 服务器 HBM 出货量(EB)


4、先进封装有业绩增速及长期逻辑,中型设备商具备较大弹性


先进封装市场、HBM市场的竞争有助于推升先进封装设备市场 TAM,拉姆研究管理层预估 AI 服务器渗透率每增长 1%,都将带动 10-15 亿美元增量设备投资。


硅通孔(TSV)用于形成 2.5D、3D 先进封装垂直电气通道,目前主流的方案为博世蚀刻法,该方法将蚀刻过程分为多个周期,每个周期分为蚀刻、钝化和间歇三个过程,通过不断向下蚀刻形成垂直的通孔。按TSV制造成本结构拆分,TSV包括光刻、通孔蚀刻、衬底沉积、嵌入屏障层和种子层、衬底开口、屏障层及种子层、铜电镀、化学机械抛光,其中化学机械抛光(CMP)、屏障层及种子层、通孔蚀刻占比较高。


TSV 成本结构


键合用于组件之间的连接,可分为微凸块键合、铜对铜键合,前者代表为倒装芯片和热压键合(TCB)、后者代表为混合键合(Hybrid Bonding),混合键合能够进一步缩短组件的间距,满足先进封装对更高性能的需求。台积电目前主要使用倒装芯片方案,AI 芯片初创公司 Graphcore 则是台积电混合键合方案首个客户。


AI算力加速国产化时代

国产AI算力迎来发展重要时刻。回顾超算和通用算力发展历史,国产AI算力有望经历从“可用”到“好用”的阶段,在当前国际局势下,AI算力国产化过程有望在2024年迈向“客户初选适配年”,2025年进入“客户主动采购年”,并在2026年成为主导力量。


普通云计算方面,国产服务器市场预计在2024年达到198亿,2027年达到1000亿。

超算领域,我国在超算CPU研发上经历八年的自主发展。超算云服务市场预计有望达到700亿,其中企业导向市场潜力大。


智算方面,面临美国的多方面制约,但国内算力需求仍呈现强劲增长。预计2024年国内AI算力总需求将达到211.50EFlops,国产化比例为46.45%。异腾910等技术的应用将驱动市场规模在AI芯片和服务器领域达到数百亿。


一、从CPU到GPU,核心技术当自强


1、限制加速,国产化时点提前到来


算力是数字经济发展的关键。提高算力对经济增长具有长期和倍增效应:每提高1点的算力指数,数字经济和GDP分别增长3.5%和1.8%。当算力指数达到40分和60分时,每提升1点将分别带动GDP增长1.5倍和3.0倍。


我国正迎来算力全面国产化时代。作为算力核心载体,服务器关键组成部分是CPU和类GPU等计算芯片。国产CPU已经从“可用”过渡到“好用”阶段,大客户特别是运营商和金融机构,正进行信创服务器的集中采购和规模应用。


算力与经济增长模型


2、国内算力产业链的三大体系


算力产业链主要包含三大体系:

以海光为核心芯片的科院系x86信创服务器体系;

以鲲鹏+异腾为核心芯片的华为Arm信创服务器体系;

以飞腾为核心芯片的中电子系Arm信创服务器体系。

这些体系在整机制造上呈现出各自的特点,如兼容性和自主可控程度等。我国正在逐步完善算力产业链和生态,以更好地应对国际挑战。



二、普通计算: 从“可用”到“好用”


1、国产CPU技术路线正逐步趋于收敛


我国CPU技术路线主要基于x86和Arm两大架构。当前的趋势是逐渐向两个核心体系收敛,即华为的ARM体系和海光的x86体系。在芯片的发展中,重点是实现性价比的稳定提升、广泛下游生态覆盖、充足供应,以及具备与国外芯片竞争的性能和价格。



2、2027年国产PC市场规莫有望达到547亿


根据《信创框架报告》预测,到2024年国产PC CPU市场规模有望增长至38亿,并在2027年进一步扩大至87亿,年复合增长率(CAGR)为19%。与此同时,国产PC市场整体规模预计将在2024年达到239亿,并在2027年增至547亿,年复合增长率(CAGR)为32%。


国产服务器市场规模测算


3、2027年国产服务器市场规模有望达到千亿


2022年服务器芯片国产化程度达25%。在全球市场中,X86芯片占据91%的份额,ARM芯片占据6%,而其他芯片占据3%(Counterpoint数据)。根据Bernstein的数据,在中国市场,ARM芯片在服务器中的占比约为15%,而其他国产CPU(包括龙芯、海光、兆芯、申威等)的占比约为10%,使得总体国产芯片服务器的占比达到25%。


据《信创框架报告》预测,到2024年国产服务器CPU市场规模预计将增长至198亿,并在2027年有望达到594亿。与此同时,2024年国产服务器市场规模预计将增至1000亿,年复合增长率(CAGR)为19%。这些数据表明,国产服务器市场正在快速发展,并且国产芯片中的占比也在逐渐提高。


4、以运营商和金融为代表的行业客户已开始大规模集采国产服务器


从2023年下半年开始,运营商和金融客户纷纷进行大规模国产服务器采购,而未来,能源电力、制造业、医疗、教育等行业的国有企业客户也有望逐步加入信创服务器集采行列。


供应方面,Arm服务器在以运营商和银行为代表的行业信创采购中的占比不断提高,如在中信银行65亿订单中,Arm芯片服务器份额约占总金额的3/4,预计Arm芯片服务器的市场份额将进一步增加。


2021年x86服务器的主要下游客户构成


5、ARM:华为馄鹏CPU主打高性能和低功耗


鲲鹏920是由华为自主研发的核心CPU,专为数据中心设计,注重高性能和低功耗。基于ARM V8.2架构,主频达2.6GHz,单芯片支持64核,提供8通道DDR4和100G ROCE大网卡,具备PCle4.0及CCIX接口,总带宽达到640Gbps。通过优化分支预测算法、增加运算单元数量、改进内存子系统架构等微架构设计大幅提升处理器性能。


鲲鹏920主打高性能和低功耗


6、ARM:飞腾CPU可扩展生、安全性强


飞腾CPU展现高可扩展、高性能、高安全、高可靠、高效五大核心能力。其新一代腾云S2500系列服务器芯片采用16nm工艺,64核架构,直连可达512核,总带宽800Gbps,支持2至8路直连,形成128核到512核的计算机系统。最新的FTC870内核主频可达3GHz,性能达到国际先进水平,相比上一代提升约20%。


新一代”870”高性能处理器核,性能追赶国际先进水平


7、兼容性X86:海光CPU兼具性能和兼容性


海光基于AMD授权的x86指令集研制CPU,如海光7285,具有32核、64个超线程、2.0GHz主频、DDR4内存、8个内存通道、最高2666MHz内存频率、128个PCle通道。采用先进的微结构和缓存层次结构,优化分支预测算法,实现每个时钟周期执行指令数显著提高。海光三号系列芯片是主力产品,具有32核心64线程,128条PCle4.0通道,支持3200MHz内存频率,整体性能提升约45%。


各主流CPU性能参数对比


三、超算:受限较早,徐徐前行


1、数据密集型问题超级计算用于处理极端复杂


超级计算(HPC)是计算科学的前沿领域,利用多台计算机系统(超级计算机)的集中式计算资源处理复杂或数据密集型问题。与智算相比,超算要求双精度计算(FP64),而智算通常要求单精度、半精度计算(FP32、16、8)。超算产业具有明显的政策性特征,主要是由于超算芯片难度较大,且下游应用主要集中在前沿基础科学研究等非商业化需求。因此,产业链的发展在一定程度上受政策周期性影响。



2、超算芯片受限较早,我国超算在政策加持下已进入互联阶段


八年前美国就对中国超算领域实施限制,拒绝向中国的多个超算中心和国防科大提供“至强”芯片。随后,美国不断收紧对我国超算单位限制,包括对中国超算三巨头中的“神威”和“曙光”实施制裁。这些限制促使我国在超算领域走上自主发展之路。


在2016年《“十三五”国家科技创新规划》中提出突破超级计算机中央处理器(CPU)架构设计技术的目标。进入2021年的“十四五”规划中,明确建设E级和10E级超级计算中心计划。为推动国产超算算力提升,启动超算互联网建设工作,旨在建成一体化超算算力网络和服务平台,实现对算力资源的统筹调度。


3、中国超算算力总和2020年已达566PFlops


中国超级计算机在全球Top500榜单中已连续9次制造数量领先,市场份额一度达到全球第一。在2018年底至2020年中,中国超算上榜数量占比约为45%。然而,2017年至2019年,中国超算算力总和在Top500榜单中仅占总和的三成左右,略低于数量占比。自2020年起,中国停止向TOP500组织提交最新超算系统信息,因此后续数量和算力占比均呈下降趋势。


全球超级计算机500强榜单中中国制造的数量及占比(台、%)


4、预计2025年中国超算市场规模达到466亿元


全球超算市场预计将在2026年达到395.3亿美元,以HPC市场收入为口径,2017-2021年市场规模CAGR为12.2%,而2021-2026年的预计CAGR为6.1%。


在中国,根据研究机构的测算,2016-2021年中国超算服务市场规模CAGR高达24.7%,预计2021-2025年的CAGR为24.1%,到2025年,中国超算服务市场规模将达到466亿元。


2017-2026E全球超算市场规模(亿美元、%)


5、全国有11家国家级超算中心,中科院体系占比过半


由于超算与国家前沿基础科学研究需求紧密相关,因此国家级超算中心基本可分为中科院、国防科大和江南计算所三大体系,从数量上看,中科院体系份额超过50%。



6、超算上云是必经之路,超算云服务市场规模有望达到700亿


超算互联网的三层参与者包括基础算力层、运行管理层和服务运营商,分别提供算力、管理资源和运营服务。通过超算互联网建设,在2025年底前打造国家算力底座,实现超算算力一体化运营。超算服务需求涉及多领域,需要具备超算技术和行业科研思维的复合型人才。超算服务场景因应用领域不同而异,包括海洋气象、地质勘探、工业仿真、富媒体渲染等。预计中国超算云服务市场规模有望在远期达到700亿,其中企业市场为主导力量,展现出未来商用企业市场的巨大潜力。


中国超算云服务市场规模远期有望达到700亿


四、智算:限制加速,国产化时点提前到来


1、美国政府上台后加强对中国半导体产业多边管制,通过诸多措施限制芯片设计、代工、生产设备、供应链等多个环节。


2、中国智算算力领域迎来新基建顶层规划,通过《算力基础设施高质量发展行动计划》实现全国范围内顶层规划。政策强调网络联通,协调全国范围内智算中心建设,提高使用国产芯片智算中心上架率。2025年的目标包括全国算力规模超过300EFlops,智能算力占比达到35%,光传送网覆盖率达到80%,各领域算力渗透率提升。这一规划解决了各地建设节奏不一、标准不一的问题,有助于实现智算算力混合调用,提高国产智算算力上架率。


《算力基础设施高质量发展行动计划》主要内容


3、2024年国产AI算力需求有望接近100EFlops


商用客户如互联网有望将百亿参数模型的部分训练和推理需求转向国产AI芯片,2024年国产芯片主要需求将包括:政府智算中心、运营商、金融、第三方大模型厂商、互联网厂商,据测算,依8卡昇腾910 AI服务器计算,2024年预计昇腾910出货量为30.7万张,对应3.84万台AI服务器。



4、2024年国产AI算力需求有望接近100EFlops


1)2024年政府智算中心国产AI算力增量需求为23EP,需要7.19万张昇腾910卡,0.90万台AI训练服务器


截至2022年,中国的算力总规模已达180 EFlops,其中智能算力占41 EFlops。到2025年,全国算力目标规模将超过300 EFlops,智能算力占比达到35%。据此推算,2024年智能算力的缺口约为23 EFlops。考虑到智算中心建设由政府主导,国产芯片的供应占比将达到100%。因此,2024年政府智算中心对国产AI算力的需求为23 EFlops,相当于昇腾910卡7.19万张和AI训练服务器0.90万台。



2)2024年运营商国产AI算力增量需求为34.90EFlops, 需要10.91万张昇腾910卡,1.36万台AI训练服务器


中国电信AI算力服务器(2023-2024年)集中采购项目分为4个标包,总金额84.62亿,总采购规模为4175台训练型服务器。其中,使用国产鲲鹏芯片的AI服务器数量为1977台,占总采购数量的47.35%,总金额28亿,IB交换机数量为1182台。其中运营商将在地方算力基建任务中扮演角色,并提供智算算网服务;移动、联通、电信三大运营商的采购节奏相近,算力服务器数量与2023年各家算力网络Capex比例一致;运营商作为信创领军者将承担AI算力信创任务,国产化率有望达到80%。综合分析得出,2024年运营商对增量国产AI算力的需求为34.90 EFlops,需要10.91万张昇腾910卡和1.36万台AI训练服务器。



3)2024年金融等行业客户国产AI算力增量需求为6.41EFlops,需要2万张昇腾910卡,0.25万台AI训练服务器


6家国有银行和12家股份制银行等行业客户的AI服务器采购规模为4175台。假设国产化率为60%,则国产AI服务器的需求为1670台,相应的算力规模为6.41 EFlops。这需要2万张昇腾910卡和0.25万台AI训练服务器。



4)2024年第三方大模型厂商的国产AI算力增量需求为19.84EFlops,需要6.20万张昇腾910卡,0.78万台AI训练服务器


截至2023年10月,中国已发布两百余个大模型,主要由科研院所和互联网企业推动。鉴于算力供应受到限制,科研院所以及讯飞、智谱、智源等第三方大模型厂商可能会寻求国内芯片以满足部分算力需求。假设2024年新增大模型总数为50个,平均模型参数量为200亿,国产化率为25%,则第三方大模型厂商在2024年对国产AI算力的增量需求为19.84 EFlops,需要6.20万张昇腾910卡和0.78万台AI训练服务器。



5)互联网厂商需要国产算力分别为9.92EFlops(FP16)、8.33EFlops(INT8),合计需要4.4万张昇腾910卡,0.55万台AI服务器


美国芯片禁令对国内获取主流GPU(如A800、H800)产生限制,导致互联网厂商调整算力选择。互联网厂商将使用国产替代方案将首先在百亿模型推理领域实现,通过团队优化达到A800等效;到2024年,百亿模型训练逐步实现国产替代;千亿模型推理、训练仍以英伟达芯片为主,后续选择将基于硬件成本、人员成本和实际性能等多方面考虑。假设2024年在百亿参数模型上,20%的训练需求和80%的推理需求实现国产化,计算所需国产算力分别为9.92 EFlops、8.33 EFlops,总计需要4.4万张昇腾910卡和0.55万台AI服务器。



5、2024年国产AI服务器市场规模有望达到409亿


2024年国内新增AI总算力需求为211.5 EFlops(FP16),其中国产算力需求为98.24 EFlops(FP16),国产化比例为46.45%。按照单张昇腾910算力为320 TFLOPS计算,相应需要30.7万张昇腾910和3.84万台AI服务器。据京东数据,昇腾Atlas 300T A2训练卡均价在10万以上,预计2024年昇腾芯片潜在市场规模约为307亿。参考IDC数据,训练型服务器中GPU成本占比约为72.8%,假设8张昇腾Atlas 300T A2的训练服务器中GPU占比75%,推算2024年华为昇腾服务器潜在市场规模为409.33亿。



相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
8天前
|
人工智能
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。
70 16
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
|
17天前
|
人工智能 安全 测试技术
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
EXAONE 3.5 是 LG AI 研究院推出的开源 AI 模型,擅长长文本处理,能够有效降低模型幻觉问题。该模型提供 24 亿、78 亿和 320 亿参数的三个版本,支持多步推理和检索增强生成技术,适用于多种应用场景。
70 9
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
|
19天前
|
机器学习/深度学习 人工智能
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
SNOOPI是一个创新的AI文本到图像生成框架,通过增强单步扩散模型的指导,显著提升模型性能和控制力。该框架包括PG-SB和NASA两种技术,分别用于增强训练稳定性和整合负面提示。SNOOPI在多个评估指标上超越基线模型,尤其在HPSv2得分达到31.08,成为单步扩散模型的新标杆。
61 10
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
|
19天前
|
人工智能 搜索推荐 开发者
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问
Aurora是xAI为Grok AI助手推出的新图像生成模型,专注于生成高逼真度的图像,特别是在人物和风景图像方面。该模型支持文本到图像的生成,并能处理包括公共人物和版权形象在内的多种图像生成请求。Aurora的可用性因用户等级而异,免费用户每天能生成三张图像,而Premium用户则可享受无限制访问。
58 11
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问
|
21天前
|
存储 人工智能 PyTorch
【AI系统】模型转换流程
本文详细介绍了AI模型在不同框架间的转换方法,包括直接转换和规范式转换两种方式。直接转换涉及从源框架直接生成目标框架的模型文件,而规范式转换则通过一个中间标准格式(如ONNX)作为桥梁,实现模型的跨框架迁移。文中还提供了具体的转换流程和技术细节,以及模型转换工具的概览,帮助用户解决训练环境与部署环境不匹配的问题。
35 5
【AI系统】模型转换流程
|
21天前
|
机器学习/深度学习 存储 人工智能
【AI系统】模型转换基本介绍
模型转换技术旨在解决深度学习模型在不同框架间的兼容性问题,通过格式转换和图优化,将训练框架生成的模型适配到推理框架中,实现高效部署。这一过程涉及模型格式转换、计算图优化、算子统一及输入输出支持等多个环节,确保模型能在特定硬件上快速、准确地运行。推理引擎作为核心组件,通过优化阶段和运行阶段,实现模型的加载、优化和高效执行。面对不同框架的模型文件格式和网络结构,推理引擎需具备高度的灵活性和兼容性,以支持多样化的应用场景。
50 4
【AI系统】模型转换基本介绍
|
21天前
|
机器学习/深度学习 存储 人工智能
【AI系统】模型剪枝
本文概述了模型剪枝的概念、方法及流程,旨在通过移除神经网络中冗余或不重要的参数,实现模型规模的减小和效率的提升。剪枝不仅有助于降低模型的存储和计算需求,还能增强模型的泛化能力。文章详细介绍了剪枝的定义、分类、不同阶段的剪枝流程,以及多种剪枝算法,如基于参数重要性的方法、结构化剪枝、动态剪枝和基于优化算法的全局剪枝策略。通过这些方法,可以在保持模型性能的同时,显著提高模型的计算速度和部署灵活性。
29 2
【AI系统】模型剪枝
|
21天前
|
机器学习/深度学习 存储 人工智能
【AI系统】感知量化训练 QAT
本文介绍感知量化训练(QAT)流程,旨在减少神经网络从FP32量化至INT8时的精度损失。通过在模型中插入伪量化节点(FakeQuant)模拟量化误差,并在训练中最小化这些误差,使模型适应量化环境。文章还探讨了伪量化节点的作用、正向与反向传播处理、TensorRT中的QAT模型高效推理,以及QAT与PTQ的对比,提供了实践技巧,如从良好校准的PTQ模型开始、采用余弦退火学习率计划等。
70 2
【AI系统】感知量化训练 QAT
|
21天前
|
机器学习/深度学习 存储 人工智能
【AI系统】训练后量化与部署
本文详细介绍了训练后量化技术,涵盖动态和静态量化方法,旨在将模型权重和激活从浮点数转换为整数,以优化模型大小和推理速度。通过KL散度等校准方法和量化粒度控制,文章探讨了如何平衡模型精度与性能,同时提供了端侧量化推理部署的具体实现步骤和技术技巧。
43 1
【AI系统】训练后量化与部署
|
19天前
|
人工智能 PyTorch 测试技术
【AI系统】并行训练基本介绍
分布式训练通过将任务分配至多个节点,显著提升模型训练效率与精度。本文聚焦PyTorch2.0中的分布式训练技术,涵盖数据并行、模型并行及混合并行等策略,以及DDP、RPC等核心组件的应用,旨在帮助开发者针对不同场景选择最合适的训练方式,实现高效的大模型训练。
57 8

热门文章

最新文章