天天都在说的“算力”到底是个啥?一文全讲透!

简介: 算力是数字经济发展的重要支撑,尤其在AI和大数据应用中起着关键作用。阿里云致力于构建全球领先的算力基础设施,助力各行业数字化转型。吴泳铭和马云均强调了算力在未来科技竞争中的核心地位。2023年底,我国算力总规模达230EFLOPS,位居全球第二。算力分为通用、智能和超算算力,广泛应用于人工智能训练与推理等场景。中国正加速建设智算中心,推动算力产业链发展,并注重绿色低碳和智能运维,以应对日益增长的计算需求。

引言

在今年的阿里云栖大会上,吴泳铭在演讲中强调,算力是数字经济发展的重要支撑。他指出,“算力资源的分配不均和成本高昂,已经成为阻碍AI及大数据应用广泛普及的关键瓶颈”,“阿里云致力于构建全球领先的算力基础设施,为社会提供强大而经济的计算能力,助力各行各业实现数字化转型。” 吴泳铭还提到,阿里云正努力打造一个开放、高效的算力生态,以满足不同场景下的多样化需求。

不久前,在一次与青年科学家的对话中,阿里巴巴集团创始人马云也表达了类似的观点:“我们正站在智能时代的门槛上,而强大的算力则是开启这一新时代的钥匙。未来的竞争将围绕着谁能够更有效地利用算力展开,这不仅关乎技术进步,更是国家竞争力的核心体现。” 阿里巴巴的新老领导人都一致认同算力在未来科技发展中的关键作用,凸显了这一领域的重要性。

2024年世界人工智能大会上,工业和信息化部负责人透露,我国算力规模位居全球第二。截至2023年底,我国算力总规模达到了230EFLOPS,即每秒能完成230百亿亿次浮点运算。

那么,究竟什么是算力?它如何塑造我们的世界?在我国又发展到了什么水平?

算力的定义与本质

简而言之,算力是指计算机系统执行计算任务的能力,它量化了数据处理的速度和效率。这个概念涵盖了硬件(如CPU、GPU、TPU等处理器)、软件算法以及网络架构等多个层面的综合性能。在更广泛的意义上,算力是驱动人工智能、大数据分析、云计算、区块链等前沿技术发展的核心动力。

笼统来看,算力可分为基础算力、智能算力和超算算力三部分,分别提供基础通用计算、人工智能计算和科学工程计算。

image.png

如果按照《中国算力白皮书(2022年)》的定义,算力又可详细分为四部分:通用算力智能算力超算算力边缘算力。其中,通用算力以CPU芯片输出的计算能力为主;智能算力以GPU、FPGA、Al芯片等输出的人工智能计算能力为主;超算算力以超级计算机输出的计算能力为主。边缘算力,主要是以就近为用户提供实时计算能力为主,是前三种的组合,用以解决网络延迟产生的问题。

image.png

根据中国算力发展指数白皮书测算, 算力每投入1元,将带动3-4元的经济产出。

在实际应用中,通用算力、智能算力和超算算力往往相互关联和依赖。如在进行人工智能训练时,需要使用超算提供的强大计算能力来加速模型的训练过程;在进行大规模数据分析时,需要使用智算来提取有用的信息和模式;在进行日常的办公和娱乐时,需要使用通用算力来处理各种常见的计算任务。

人工智能算力

应用——大模型

人工智能的算力主要应用在人工智能(AI)大模型的训练及推理。

我们知道,大模型就像人一样,需要学习,慢慢成长后才会变得强大,而他的学习方式就是训练。简单以图像识别为例,先让AI大模型知道每张图像是什么,有什么特点,比如人物、风景等,在经过训练后AI 模型可以对新的图像作识别并分类,知道这是一张人物,那是一张风景图,当然更厉害的是按照要求生成图像,这个过程就可以简单理解为“推理(inference)”。

image.png

训练所需要精度更高,算力也更高,并且需要有一定的通用性,以便完成各种学习任务,因此目前 AI 训练芯片的算力一般都采用16位浮点数进行标志,另外支持32位浮点数计算,甚至64位双精度数据的计算。

推理是借助已经训练好的AI模型进行运算,利用输入数据获得所需要输出的结果,对精度和算力要求较低,因此一般推理都是采用8位整型对算力进行标志,计算时也都是进行整型运算。

载体——服务器

AI服务器是一种能够提供人工智能(AI)计算的服务器,它既可以用来支持本地应用程序和网页,也可以为云和本地服务器提供复杂的AI模型和服务。

image.png

AI服务器有助于为各种实时AI应用提供实时计算服务,按应用场景可分为训练和推理两种,其中训练对芯片算力要求更高,推理对算力的要求偏低。

image.png

AI服务器主要以GPU服务器为主,2022年我国GPU服务器占AI服务器的89%。

image.png

核心-芯片

AI芯片是算力的核心。AI芯片也被称为AI加速器或计算卡,即专门用于处理人工智能应用中的大量计算任务的模块(其他非计算任务仍由CPU负责);伴随数据海量增长,算法模型趋向复杂,处理对象异构,计算性能要求高,AI 芯片在人工智能的算法和应用上做针对性设计,可高效处理人工智能应用中日渐多样繁杂的计算任务。

AI芯片主要包括图形处理器(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、神经拟态芯片(NPU)等。

image.png

GPU属于通用型芯片,ASIC属于专用型芯片,而FPGA则是介于两者之间的半定制化芯片。

中国算力产业链图谱、空间布局及发展趋势梳理

产业链图谱

产业链上游核心为IT软硬件设备,包括基础硬件(如CPU、GPU、存储器等)、计算设备(服务器等)和网络设备(交换机、路由器、光模块等)及基础软件(如操作系统、数据库、中间件等),是计算力、存储力、运载力的最基本单元,也是决定算力质量的根本环节。此外,还包括供配电(配电柜、变压器、UPS等)、散热制冷(风冷、液冷等)等配套设施。

中游为算力网络及平台,包括各类算力基础设施建设及基于基础设施开展的IDC服务、云服务、人工智能算力服务及安全服务等,是为下游应用提供算力服务的核心环节。

下游为各类应用场景,涵盖互联网、金融、政务、交通、教育、工业、医疗、能源等行业和领域。

image.png

空间布局

2022年,随着国家“东数西算”工程启动,我国算力地图正式开始,形成八大枢纽、十大算力中心集群。其中,八大枢纽包括:京津冀枢纽、长三角枢纽、粤港澳枢纽、内蒙古枢纽、宁夏枢纽、甘肃枢纽、成渝枢纽、贵州枢纽。十大算力中心集群包括:京津冀算力中心集群、长三角算力中心集群、粤港澳大湾区算力中心集群、成渝算力中心集群、内蒙古算力中心集群、贵州算力中心集群、甘肃算力中心集群、宁夏算力中心集群、新疆算力中心集群、云南算力中心集群。

我国超算中心市场规模全球领先。我国高度重视科技创新,在超算技术方面不断取得突破,自主研发的超级计算机多次获得世界超算500 强排名的前列位置。根据第 56 期全球超级计算机 TOP500 榜单数据,中国部署的超级计算机数量继续位列全球第一,达到 226 台,占总体份额超过 45%。截止2023年,我国共有14座科技部批准的国家级超算中心。分别位于天津、深圳、长沙、济南、广州、无锡、郑州、昆山、成都西安、太原、重庆和乌镇。

此外,近几年,国内的算力市场持续增长,其中智能算力规模增长迅速,占比达到近30%,尤其这两年国内智算增速高达70%左右,已经成为算力经济发展的新引擎。不过就我国而言,智算中心仍有极大发展空间。据中国信通院公开信息,从建设状态看,截至2024年5月,我国智算主要还在建设和规划中,总算力规划272EFLOPS,但目前建成运营的只有104EFLOPS。2023年,这一整年全国有20+座智算中心建成或在建。公开数据显示,截至2023年底,全国带有“智算中心”的项目已有128个。2024年,北京、四川、宁夏、河南等多地智算中心开工或投入使用。

2023年以来,以ChatCPT、Sora为代表的AIGC大模型横空出世,掀起了一股席卷全球的AI浪潮。想要在AI浪潮中占据优势,就必须拥有强劲的AI算力支撑。智算中心作为AI算力的核心基础设施,逐渐成为人们关注的焦点,也是行业重点建设的对象。2024年又有一批智算中心投运,这些智算中心采用专门的AI算力硬件,适合高效运行AI算法。它们可以应用于计算机视觉、自然语言处理、机器学习等领域,处理图像识别、语音识别、文本分析、模型训练推理等任务。

发展趋势

自主可控:随着国际形势的变化和国内技术的进步,国产算力加速发展。国家及各级政府从政策层面促进国产算力芯片使用,《算力基础设施高质量发展行动》明确要逐步形成自主可控解决方案,上海、天津、江苏等地制定算力中心国产化芯片使用率目标。

image.png

多元异构:多元异构算力能满足不同场景对计算资源、计算能力的多样化需求,充分发挥各种计算设备的优势,实现计算效力的最大化。随着元宇宙、云游戏、机器视觉、工业互联网等新型应用逐渐落地,对算力提出越来越高的要求,未来多元异构算力有望快速发展。

image.png

绿色低碳:大模型驱动的智算中心功率密度大幅提升,算力中心能源消耗、碳排放问题日益受到关注。国家不断完善算力中心建设相关政策要求,修订算力中心评价指标体系,推动液冷、储能等绿色低碳技术应用,促进算力中心绿色低碳发展。

image.png

集群建设:数据量激增、计算需求增长以及虚拟化和容器等技术应用,推动算力中心向规模化、集群化发展,万卡以上的大规模集群加速建设。如,中国移动将商用哈尔滨、呼和浩特、贵阳三个自主可控万卡集群,总规模近6万张GPU卡,充分满足大模型集中训练需求。

image.png

智能运维:将AI技术应用于算力中心的运营维护,有助于提升算力中心运维效率和质量,可实现智能的资源调度、监控预警、检测排障,保障系统的稳定性和可靠性,还可根据设备的负载情况和环境参数,自动调整冷却系统和电源系统的运行策略,助力节能减排等。

image.png


参考文献:

天津市大数据协会中国算力产业链图谱、空间布局及发展趋势梳理

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
存储 运维 云计算
深度解析云计算计费方式,看完这篇全懂了!
深度解析云计算计费方式,看完这篇全懂了! 随着科技的飞速发展,云计算已经成为了我们生活中不可或缺的一部分。然而,对于云计算的计费方式,你是否感到困惑呢?这篇文章将为你深度解析云计算的计费方式,让你看完之后全懂了!
694 1
|
人工智能 云计算 数据中心
未来人类的算力会用尽吗?
在数字时代的今天,人类对于计算能力的需求已经达到了前所未有的高度。从日常生活中的智能手机到科学研究中的超级计算机,我们依赖于越来越多的计算资源。然而,一个引人关注的问题是,未来人类的算力会不会用尽?这个问题涉及到技术、资源、能源和环境等多个方面,让我们一起来探讨这个问题。
|
芯片 算法 异构计算
如何打破边缘端芯片算力有限的困局?阿里 AILabs 这么做!
在自研硬件上,和芯片厂商深度合作针对中低端芯片做出了特例优化,落地了手势识别、宠物检测和笔尖检测等业务。
3532 0
|
9月前
|
边缘计算 Kubernetes Cloud Native
边缘计算问题之根据请求响应的时延要求来部署业务应用如何解决
边缘计算问题之根据请求响应的时延要求来部署业务应用如何解决
129 4
|
6月前
|
存储 人工智能 大数据
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
10月前
|
安全 搜索推荐 定位技术
海外服务器指的是什么?有哪些优势?
以上就是关于海外服务器的概念以及其优势的简洁解答。
117 3
|
弹性计算 运维 监控
ECS省钱指南来啦!万字长文教你如何选择与业务形态最匹配的付费方式
CloudOps云上运维系列课程,第二节由阿里云弹性计算技术专家蒋超和樊毅伟主讲,课程涵盖:合适的付费方式选择、合适的资源规格选择、如何提升资源利用率、如何高效并弹性创建ECS、如何高确定性创建ECS等相关内容,点击下方链接进入【CloudOps云上运维】课程专题页即可观看课程回放,还可了解最新课程预告。
ECS省钱指南来啦!万字长文教你如何选择与业务形态最匹配的付费方式
|
弹性计算 运维 监控
ECS省钱指南,万字长文教你如何选择与业务形态最匹配的付费方式
阿里云弹性计算团队十三位产品专家和技术专家共同分享云上运维深度实践,详细阐述如何利用CloudOps工具实现运维提效、弹性降本。
131730 37
|
关系型数据库 Serverless 分布式数据库
国产大模型进入长跑期,从参数至上转向实用优先
近年来,云数据库技术不断发展,为企业提供了更多灵活、高效的数据管理解决方案。在数据库圈中,也有很多好的数据库产品,尤其是国产数据库产品,其中PolarDB作为阿里云的云原生关系型数据库产品,以其强大的Serverless能力备受技术圈的持续关注。很荣幸能够有机会参与体验使用PolarDB的Serverless,由于在日常工作中也会或多或少的用到,正好借此机会体验使用一把。那么本文就来简单的分享一下,从多个维度对PolarDB的Serverless能力进行产品测评,包括资源弹升速度、资源伸缩广度、资源伸缩的稳定性、资源伸缩的颗粒度、可支持自动启停以及全局数据的强一致性,以及与同类型产品进行对比分
125 1
国产大模型进入长跑期,从参数至上转向实用优先
|
弹性计算 NoSQL 关系型数据库
2024年阿里云又开始大规模降价,意味着什么?
2024年阿里云又开始大规模降价,意味着什么?百款产品直降,平均降幅20%,阿里云希望通过此次大规模降价,让更多企业和开发者用上先进的公共云服务,加速云计算在中国各行各业的普及和发展。这次降价包括云服务器ECS、对象存储OSS、云数据库都降价了,真降价,直降价:百款产品直降,平均降幅20%,阿里云百科分享阿里云2024年降价信息汇总表
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等