天天都在说的“算力”到底是个啥?一文全讲透!

简介: 算力是数字经济发展的重要支撑,尤其在AI和大数据应用中起着关键作用。阿里云致力于构建全球领先的算力基础设施,助力各行业数字化转型。吴泳铭和马云均强调了算力在未来科技竞争中的核心地位。2023年底,我国算力总规模达230EFLOPS,位居全球第二。算力分为通用、智能和超算算力,广泛应用于人工智能训练与推理等场景。中国正加速建设智算中心,推动算力产业链发展,并注重绿色低碳和智能运维,以应对日益增长的计算需求。

引言

在今年的阿里云栖大会上,吴泳铭在演讲中强调,算力是数字经济发展的重要支撑。他指出,“算力资源的分配不均和成本高昂,已经成为阻碍AI及大数据应用广泛普及的关键瓶颈”,“阿里云致力于构建全球领先的算力基础设施,为社会提供强大而经济的计算能力,助力各行各业实现数字化转型。” 吴泳铭还提到,阿里云正努力打造一个开放、高效的算力生态,以满足不同场景下的多样化需求。

不久前,在一次与青年科学家的对话中,阿里巴巴集团创始人马云也表达了类似的观点:“我们正站在智能时代的门槛上,而强大的算力则是开启这一新时代的钥匙。未来的竞争将围绕着谁能够更有效地利用算力展开,这不仅关乎技术进步,更是国家竞争力的核心体现。” 阿里巴巴的新老领导人都一致认同算力在未来科技发展中的关键作用,凸显了这一领域的重要性。

2024年世界人工智能大会上,工业和信息化部负责人透露,我国算力规模位居全球第二。截至2023年底,我国算力总规模达到了230EFLOPS,即每秒能完成230百亿亿次浮点运算。

那么,究竟什么是算力?它如何塑造我们的世界?在我国又发展到了什么水平?

算力的定义与本质

简而言之,算力是指计算机系统执行计算任务的能力,它量化了数据处理的速度和效率。这个概念涵盖了硬件(如CPU、GPU、TPU等处理器)、软件算法以及网络架构等多个层面的综合性能。在更广泛的意义上,算力是驱动人工智能、大数据分析、云计算、区块链等前沿技术发展的核心动力。

笼统来看,算力可分为基础算力、智能算力和超算算力三部分,分别提供基础通用计算、人工智能计算和科学工程计算。

image.png

如果按照《中国算力白皮书(2022年)》的定义,算力又可详细分为四部分:通用算力智能算力超算算力边缘算力。其中,通用算力以CPU芯片输出的计算能力为主;智能算力以GPU、FPGA、Al芯片等输出的人工智能计算能力为主;超算算力以超级计算机输出的计算能力为主。边缘算力,主要是以就近为用户提供实时计算能力为主,是前三种的组合,用以解决网络延迟产生的问题。

image.png

根据中国算力发展指数白皮书测算, 算力每投入1元,将带动3-4元的经济产出。

在实际应用中,通用算力、智能算力和超算算力往往相互关联和依赖。如在进行人工智能训练时,需要使用超算提供的强大计算能力来加速模型的训练过程;在进行大规模数据分析时,需要使用智算来提取有用的信息和模式;在进行日常的办公和娱乐时,需要使用通用算力来处理各种常见的计算任务。

人工智能算力

应用——大模型

人工智能的算力主要应用在人工智能(AI)大模型的训练及推理。

我们知道,大模型就像人一样,需要学习,慢慢成长后才会变得强大,而他的学习方式就是训练。简单以图像识别为例,先让AI大模型知道每张图像是什么,有什么特点,比如人物、风景等,在经过训练后AI 模型可以对新的图像作识别并分类,知道这是一张人物,那是一张风景图,当然更厉害的是按照要求生成图像,这个过程就可以简单理解为“推理(inference)”。

image.png

训练所需要精度更高,算力也更高,并且需要有一定的通用性,以便完成各种学习任务,因此目前 AI 训练芯片的算力一般都采用16位浮点数进行标志,另外支持32位浮点数计算,甚至64位双精度数据的计算。

推理是借助已经训练好的AI模型进行运算,利用输入数据获得所需要输出的结果,对精度和算力要求较低,因此一般推理都是采用8位整型对算力进行标志,计算时也都是进行整型运算。

载体——服务器

AI服务器是一种能够提供人工智能(AI)计算的服务器,它既可以用来支持本地应用程序和网页,也可以为云和本地服务器提供复杂的AI模型和服务。

image.png

AI服务器有助于为各种实时AI应用提供实时计算服务,按应用场景可分为训练和推理两种,其中训练对芯片算力要求更高,推理对算力的要求偏低。

image.png

AI服务器主要以GPU服务器为主,2022年我国GPU服务器占AI服务器的89%。

image.png

核心-芯片

AI芯片是算力的核心。AI芯片也被称为AI加速器或计算卡,即专门用于处理人工智能应用中的大量计算任务的模块(其他非计算任务仍由CPU负责);伴随数据海量增长,算法模型趋向复杂,处理对象异构,计算性能要求高,AI 芯片在人工智能的算法和应用上做针对性设计,可高效处理人工智能应用中日渐多样繁杂的计算任务。

AI芯片主要包括图形处理器(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、神经拟态芯片(NPU)等。

image.png

GPU属于通用型芯片,ASIC属于专用型芯片,而FPGA则是介于两者之间的半定制化芯片。

中国算力产业链图谱、空间布局及发展趋势梳理

产业链图谱

产业链上游核心为IT软硬件设备,包括基础硬件(如CPU、GPU、存储器等)、计算设备(服务器等)和网络设备(交换机、路由器、光模块等)及基础软件(如操作系统、数据库、中间件等),是计算力、存储力、运载力的最基本单元,也是决定算力质量的根本环节。此外,还包括供配电(配电柜、变压器、UPS等)、散热制冷(风冷、液冷等)等配套设施。

中游为算力网络及平台,包括各类算力基础设施建设及基于基础设施开展的IDC服务、云服务、人工智能算力服务及安全服务等,是为下游应用提供算力服务的核心环节。

下游为各类应用场景,涵盖互联网、金融、政务、交通、教育、工业、医疗、能源等行业和领域。

image.png

空间布局

2022年,随着国家“东数西算”工程启动,我国算力地图正式开始,形成八大枢纽、十大算力中心集群。其中,八大枢纽包括:京津冀枢纽、长三角枢纽、粤港澳枢纽、内蒙古枢纽、宁夏枢纽、甘肃枢纽、成渝枢纽、贵州枢纽。十大算力中心集群包括:京津冀算力中心集群、长三角算力中心集群、粤港澳大湾区算力中心集群、成渝算力中心集群、内蒙古算力中心集群、贵州算力中心集群、甘肃算力中心集群、宁夏算力中心集群、新疆算力中心集群、云南算力中心集群。

我国超算中心市场规模全球领先。我国高度重视科技创新,在超算技术方面不断取得突破,自主研发的超级计算机多次获得世界超算500 强排名的前列位置。根据第 56 期全球超级计算机 TOP500 榜单数据,中国部署的超级计算机数量继续位列全球第一,达到 226 台,占总体份额超过 45%。截止2023年,我国共有14座科技部批准的国家级超算中心。分别位于天津、深圳、长沙、济南、广州、无锡、郑州、昆山、成都西安、太原、重庆和乌镇。

此外,近几年,国内的算力市场持续增长,其中智能算力规模增长迅速,占比达到近30%,尤其这两年国内智算增速高达70%左右,已经成为算力经济发展的新引擎。不过就我国而言,智算中心仍有极大发展空间。据中国信通院公开信息,从建设状态看,截至2024年5月,我国智算主要还在建设和规划中,总算力规划272EFLOPS,但目前建成运营的只有104EFLOPS。2023年,这一整年全国有20+座智算中心建成或在建。公开数据显示,截至2023年底,全国带有“智算中心”的项目已有128个。2024年,北京、四川、宁夏、河南等多地智算中心开工或投入使用。

2023年以来,以ChatCPT、Sora为代表的AIGC大模型横空出世,掀起了一股席卷全球的AI浪潮。想要在AI浪潮中占据优势,就必须拥有强劲的AI算力支撑。智算中心作为AI算力的核心基础设施,逐渐成为人们关注的焦点,也是行业重点建设的对象。2024年又有一批智算中心投运,这些智算中心采用专门的AI算力硬件,适合高效运行AI算法。它们可以应用于计算机视觉、自然语言处理、机器学习等领域,处理图像识别、语音识别、文本分析、模型训练推理等任务。

发展趋势

自主可控:随着国际形势的变化和国内技术的进步,国产算力加速发展。国家及各级政府从政策层面促进国产算力芯片使用,《算力基础设施高质量发展行动》明确要逐步形成自主可控解决方案,上海、天津、江苏等地制定算力中心国产化芯片使用率目标。

image.png

多元异构:多元异构算力能满足不同场景对计算资源、计算能力的多样化需求,充分发挥各种计算设备的优势,实现计算效力的最大化。随着元宇宙、云游戏、机器视觉、工业互联网等新型应用逐渐落地,对算力提出越来越高的要求,未来多元异构算力有望快速发展。

image.png

绿色低碳:大模型驱动的智算中心功率密度大幅提升,算力中心能源消耗、碳排放问题日益受到关注。国家不断完善算力中心建设相关政策要求,修订算力中心评价指标体系,推动液冷、储能等绿色低碳技术应用,促进算力中心绿色低碳发展。

image.png

集群建设:数据量激增、计算需求增长以及虚拟化和容器等技术应用,推动算力中心向规模化、集群化发展,万卡以上的大规模集群加速建设。如,中国移动将商用哈尔滨、呼和浩特、贵阳三个自主可控万卡集群,总规模近6万张GPU卡,充分满足大模型集中训练需求。

image.png

智能运维:将AI技术应用于算力中心的运营维护,有助于提升算力中心运维效率和质量,可实现智能的资源调度、监控预警、检测排障,保障系统的稳定性和可靠性,还可根据设备的负载情况和环境参数,自动调整冷却系统和电源系统的运行策略,助力节能减排等。

image.png


参考文献:

天津市大数据协会中国算力产业链图谱、空间布局及发展趋势梳理

相关文章
|
7天前
|
供应链 监控 安全
对话|企业如何构建更完善的容器供应链安全防护体系
随着云计算和DevOps的兴起,容器技术和自动化在软件开发中扮演着愈发重要的角色,但也带来了新的安全挑战。阿里云针对这些挑战,组织了一场关于云上安全的深度访谈,邀请了内部专家穆寰、匡大虎和黄竹刚,深入探讨了容器安全与软件供应链安全的关系,分析了当前的安全隐患及应对策略,并介绍了阿里云提供的安全解决方案,包括容器镜像服务ACR、容器服务ACK、网格服务ASM等,旨在帮助企业构建涵盖整个软件开发生命周期的安全防护体系。通过加强基础设施安全性、技术创新以及倡导协同安全理念,阿里云致力于与客户共同建设更加安全可靠的软件供应链环境。
150228 10
|
4天前
|
供应链 监控 安全
|
15天前
|
弹性计算 人工智能 安全
对话 | ECS如何构筑企业上云的第一道安全防线
随着中小企业加速上云,数据泄露、网络攻击等安全威胁日益严重。阿里云推出深度访谈栏目,汇聚产品技术专家,探讨云上安全问题及应对策略。首期节目聚焦ECS安全性,提出三道防线:数据安全、网络安全和身份认证与权限管理,确保用户在云端的数据主权和业务稳定。此外,阿里云还推出了“ECS 99套餐”,以高性价比提供全面的安全保障,帮助中小企业安全上云。
201928 14
对话 | ECS如何构筑企业上云的第一道安全防线
|
6天前
|
SQL 安全 前端开发
预编译为什么能防止SQL注入?
SQL注入是Web应用中常见的安全威胁,攻击者通过构造恶意输入执行未授权的SQL命令。预编译语句(Prepared Statements)是一种有效防御手段,它将SQL代码与数据分离,确保用户输入不会被解释为SQL代码的一部分。本文详细介绍了SQL注入的危害、预编译语句的工作机制,并结合实际案例和多语言代码示例,展示了如何使用预编译语句防止SQL注入,强调了其在提升安全性和性能方面的重要性。
|
10天前
|
搜索推荐 物联网 PyTorch
Qwen2.5-7B-Instruct Lora 微调
本教程介绍如何基于Transformers和PEFT框架对Qwen2.5-7B-Instruct模型进行LoRA微调。
421 34
Qwen2.5-7B-Instruct Lora 微调
|
1月前
|
人工智能 自然语言处理 前端开发
从0开始打造一款APP:前端+搭建本机服务,定制暖冬卫衣先到先得
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。
9955 29
|
3天前
|
人工智能 算法 搜索推荐
阿里云百炼xWaytoAGI共学课开课:手把手学AI,大咖带你从零搭建AI应用
阿里云百炼xWaytoAGI共学课开课啦。大咖带你从零搭建AI应用,玩转阿里云百炼大模型平台。3天课程,涵盖企业级文本知识库案例、多模态交互应用实操等,适合有开发经验的企业或独立开发者。直播时间:2025年1月7日-9日 20:00,地点:阿里云/WaytoAGI微信视频号。参与课程可赢取定制保温杯、雨伞及磁吸充电宝等奖品。欢迎加入钉钉共学群(群号:101765012406),与百万开发者共学、共享、共实践!
|
3天前
|
SQL 存储 Apache
基于 Flink 进行增量批计算的探索与实践
本文整理自阿里云高级技术专家、Apache Flink PMC朱翥老师在Flink Forward Asia 2024的分享,内容分为三部分:背景介绍、工作介绍和总结展望。首先介绍了增量计算的定义及其与批计算、流计算的区别,阐述了增量计算的优势及典型需求场景,并解释了为何选择Flink进行增量计算。其次,详细描述了当前的工作进展,包括增量计算流程、执行计划生成、控制消费数据量级及执行进度记录恢复等关键技术点。最后,展示了增量计算的简单示例、性能测评结果,并对未来工作进行了规划。
254 5
基于 Flink 进行增量批计算的探索与实践
|
3天前
|
人工智能 自然语言处理 API
阿里云百炼xWaytoAGI共学课DAY1 - 必须了解的企业级AI应用开发知识点
本课程旨在介绍阿里云百炼大模型平台的核心功能和应用场景,帮助开发者和技术小白快速上手,体验AI的强大能力,并探索企业级AI应用开发的可能性。

热门文章

最新文章