算力不竭如江海,天翼云“息壤”如何助力千行百业算力智能调度?

简介: “息壤”加速算力筑基 ,释放数字生产力

科技云报道原创。

数字时代下,算力已成为新型生产力,并朝着多元泛在、安全可靠、绿色低碳的方向演进。以算力为核心的数字信息基础设施,是国家战略性布局的关键组成部分,也成为数字经济时代的“大国重器”。

微信图片_20230602185317.png

作为云服务国家队,天翼云在科技创新道路上,不断加强关键核心技术自主研发,在算力技术方面不断取得突破,将最新研发成果惠及千行百业,“息壤”就是其中代表。

在第六届数字中国建设峰会上,天翼云算力分发网络平台“息壤”荣获“十大硬核科技”奖项。同时,在第三届国有企业数字化转型论坛上,“息壤”还入选国务院国资委发布的“十项国有企业数字技术成果”。

算力网络建设并非一朝一夕之功,其中涉及多个技术领域,在现有技术和商业模式上都面临全新挑战。

针对这些问题,在第六届数字中国建设峰会天翼云举办的《大咖面对面》栏目中,中国信通院云大所云计算部副主任苏越、天翼云智能边缘事业部副总经理鄢智勇接受科技云报到的采访,分享了各自观点。

“东数西算”开启 中国算力时代

算力作为数字经济时代新的生产力,已深度融入经济社会的方方面面,各类算力应用的新模式、新业态正加速涌现。2021年5月,“东数西算”国家战略正式启动,成为我国的“算力经济”时代开启的标志。

“东数西算”的本质是改变了数据在本地的存储、备份、加工、处理、分析等行为,这也对算力平台在连接、调度、运行等方面提出了新的挑战。

首先,需要清楚如何管理和统筹算力设施原有节点与新增节点衔接联动的关系。除了“东数西算”目前要建设的节点集群外,原来各个地方已经有大量的数据中心、超算中心和智算中心,如何统筹接入?以及新节点建设后,如何管理和统筹新旧节点之间联动关系?

其次,未来“东数西算”必然要面临很多类型的数据处理需求,以及多样化的业务需求,所以如何保证东数和西算形成有效的供需匹配成为一个重要难题。

第三,“东数西算”的算力网络统筹调度和运行机制问题。“东数西算”的传输网络首先要满足低时延、高可靠、大带宽等要求,还得面临算力跨区域、跨层级连接的挑战。

虽然我国算力规模增长飞快,但算力供给与调度的统筹能力较为薄弱。如何灵活地优化算力网络的云网边需求,最终实现全国范围内的全网实时调度,是“东数西算”进程中最为关键的问题之一。

对于如何更好构建高效的算力网络,苏越认为,既要建设全国“一盘棋”的大算力网络,还要聚集到涵盖核心技术的小算力网络。

大算力网络涉及跨城市、跨地域、跨集群的算力资源互联互通,比如全国一体化大数据中心、“东数西算”工程等,是算力网络顶层设计中的“基石”部分。

小算力网络包括算力并网、编排、注册、调度、交易等在内的全链条,其中涉及到从基础层到应用层的创新技术,比如底层的CPU、GPU、DPU技术,上层的交易、度量、计量计费等技术,都是整个算力网络传输过程中需要的核心技术。

“算”为核“网”为根 助力中国算力跑出“加速度”

“东数西算”背景下,广泛连接的算力网络将成为数字经济的新型基础设施。经过一年的快速发展,“以网强算,以算促网”的产业共识深入人心,如今提及的“算力网络”不再是狭义上的计算能力,而是集“算力、存力、运力”于一体的新型生产力。

鄢智勇认为,未来算力网络会像今天的电力网一样,用户可以随时随地访问任意的算力资源。鄢智勇形象地将算力网络与电力网络进行了对比,在电力网络中,电力调度是重要模块之一,它能够将来自火电、水电、风电、核电等不同来源、不同电压的电力,调度成为人们日常使用的通用电力。

而算力网络同样可以将边缘、超算、智算等不同算力进行统一调度,最终能够让人们自由地使用这些算力。

这对于已经在云网融合领域耕耘七年的中国电信而言,无疑是一次绝佳的机会。

从技术架构上看,“东数西算”天然是云网融合的,算力的智慧化调度在某种程度上,比算力资源的建设更加重要,而对于天翼云来说,这种能力是一种天然的基因。

在算力发展的十年中,天翼云从1.0演进到4.0,探索出一条核心技术自主创新之路。

2012年,中国电信宣布成立云计算分公司,正式进军云计算领域,成为国内首家涉足云计算服务的运营商。

2017年,中国电信首次明确“2+31+X”云网融合战略布局,天翼云成为唯一一家在全国31省实现一省一池部署的云服务商,真正将云服务变成像水电一样的基础资源。

2020年,中国电信发布“云改数转”战略,通过内蒙古、贵州两个服务全球的航母级数据中心,京津冀、长三角、粤港澳、陕川渝四个重点区域节点,31个省份均有布局的数据中心,再加上广泛分布的X个边缘节点,形成了2+4+31+X的全国算力布局 。

2021年,天翼云发布4.0分布式云,实现了一云多态、一云多芯、一张云网、一致架构、统一调度、统一运维,完成了产品与技术的双升级,算力、存储、网络均提升。

同时,天翼云在“2+4+31+X”资源布局基础上全面推进“千城万池”战略,加快算力全国部署。

在云网融合已成为数字信息基础设施核心特征的当下,天翼云打造了越来越强大的云网融合基础设施能力底座。

“息壤”加速算力筑基 释放数字生产力

当然,算力服务提供的不仅仅是单台设备的计算能力,还包括集群的整体有效协同能力。因此,网络化算力需要与之匹配的中枢调度决策系统,为新型信息基础设施对外一体化服务提供能力支撑。

凭借强大的云网能力,天翼云编织起一张数字时代的“算力网”,700多个数据中心、48.7万架互联网数据中心机架,通过将“计算+连接”的深度融合,打造出一条算力调度的“高速路网”。

按照超广覆盖、超高可靠、超低时延、超大速率、云网一体的标准要求,天翼云早在2022年5月17日就推出了自研的算力分发网络平台——“息壤”,以“随愿算网”的方式,对边缘云、中心云、第三方资源等全网算力进行统一管理和调度。

在上古神话中,息壤是可以自己生长、永不减耗的土壤。《海内经》有曰:“息壤者,言土自长息无限,故可以塞洪水也。”

天翼云将算力分发网络平台取名“息壤”,寓意无论业务对算力有多少需求,息壤都可以规划出满足需求的算力资源,并且通过智能调度,实现业务性能和成本的最优。

从定位上看,“息壤”好比是一个算力调度的枢纽,能够在全国范围内实现每分钟数万次、每天上千万次的算力统筹和调度。

鄢智勇表示,要实现算力调度首先要有算力,目前中国电信整体算力规模已达到3.8Eflops(每秒380亿亿次浮点运算)。其次,算力调度需要有高速传输网络,中国电信已经构建起连接东西部的高速光纤网络,现在还在试点400G、800G等高速传输,这些都是“东数西算”的物理基础。

据鄢智勇介绍,天翼云于去年推出“息壤”算力分发网络平台后,在2022年度央企“十大超级工程”评选中,“息壤”与“中国空间站全面建造完成”“西气东输四线工程全面开工”等重点项目并列其中,其极大降低开发运营运维成本,给用户带来更好的体验。

具体而言,“息壤”实现对全网资源的统一管理和使用,包括中心云、边缘云、第三方云、自建IDC、客户现场节点等,通过资源管理平台实现算力感知、算力注册、算力映射、算力建模等能力。

通过算力调度引擎灵活的自定义调度策略能力,满足不同业务需求,如云渲染、跨云调度、性能压测、混合云AI计算等多种应用场景,通过算力调度可视化能力,实现资源量、使用率、数据流调度过程可视化。

同时,“息壤”能够提供多样化、差异化的算力产品形态,满足从中心到边缘的多样化算力场景,产品形态包括算力调度引擎CPSE、边缘容器集群ECK、Serverless边缘容器ESK、批量计算BE、算力网络交易平台等,以及结合自研的算力调度引擎,实现对算力资源的统一管理、统一编排、智能调度和全局算力资源优化。

在国家大力推动“东数西算”的背景下,“息壤”能够把东部需要进行的机器学习、数据推理、智能计算等AI训练和大数据推理的工作放到西部,自动配置和调度相应算力;把东部对时延不敏感的、不活跃的、需存档的海量数据,放在西部存储等等。

通过“息壤”,“东数西训”“东数西备”“东数西渲”等构想正在成为现实。

对于“息壤”的实际表现,苏越表示,“息壤”经过中国信通院70多个测试项的严格评审,以满分顺利通过“面向资源的算力调度技术能力要求”评估,天翼云也成为业内首批通过该项评估的云服务商。

对于未来算力网络将是怎样的形态,苏越从行业角度希望激活泛在的所有资源,通过重塑产业发展模式,变革IT服务的交付方式方法。鄢智勇则站在用户层面,更希望使用算力就像使用电力一样方便,即插即用,要从可用、能用,走向易用、好用、实用。

结语

从“云网融合”向“算力网络”迈进,对电信运营商来说,不亚于一次新的长征。以天翼云为代表的云服务商,在关键技术、产业链完整性、能力模块、商业模式、产业生态等方面,实现整体突破和升级,为我国数字经济高质量发展提供更坚实的“算力底座”,全面激发数字中国的创新活力与增长韧性。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

相关文章
|
4月前
|
机器学习/深度学习 人工智能 并行计算
GPU算力平台:数字化转型的核心驱动力
【8月更文第5天】随着人工智能(AI)、大数据分析以及高性能计算需求的不断增长,图形处理器(GPU)因其卓越的并行计算能力而成为加速这些领域的关键技术。GPU算力平台不仅能够显著提升计算效率,还能帮助企业更好地处理大规模数据集,支持复杂的机器学习模型训练,并促进实时数据分析。本文将探讨GPU算力平台在数字化转型中的核心作用,并通过示例代码展示其在实际应用中的优势。
287 1
|
27天前
|
人工智能 运维 算法
引领企业未来数字基础架构浪潮,中国铁塔探索超大规模分布式算力
引领企业未来数字基础架构浪潮,中国铁塔探索超大规模分布式算力
|
3月前
|
存储 人工智能 算法
阿里云AI基础设施升级亮相,模型算力利用率提升超20%
阿里云AI基础设施升级亮相,模型算力利用率提升超20%
258 18
|
3月前
|
人工智能 算法 数据中心
从“纸面算力”到“好用算力”,超聚变打通AI+“最后一公里”
2024年,《政府工作报告》首提“AI+”行动,推动人工智能成为新质生产力引擎。市场层面,AI+正深刻变革金融、医疗、制造等行业,但AI算力瓶颈依然存在。在2024年中国算力大会上,超聚变等企业探讨了算力的绿色化和效能提升。超聚变推出的FusionPoD for AI全液冷服务器,显著降低能耗并提升算力效能,其FusionOne AI解决方案也加速了AI在各行业的落地。这些创新将重塑算力格局,推动智能革命。
|
6月前
|
人工智能 异构计算 安全
《百炼成金-大金融模型新篇章》––03.问题1:“有限算力+持续进化的算力”,双重制约下的算力资源
百炼必定成金,新质生产力会催生新质劳动力,谨以此文抛砖引玉,希望与业内的各位朋友一同探讨如何积极拥抱并运用大模型技术,以应对和驾驭不断变化的市场环境,实现科技金融持续稳定的提质增效和创新发展,携手开启金融大模型未来新篇章。
|
机器学习/深度学习 人工智能 并行计算
AI风口,算力无忧!
随着AI/ML技术的快速发展,各行各业在实际的应用场景中对计算资源的需求量越来越大,各大云厂商也是积极部署其IaaS资源,其中GPU是加速计算中最为关键需求之一。笔者将从新手体验性的使用到进阶体验,带领大家快速使用阿里云GPU云服务器,体验官方提供的八大场景。在后续的进阶体验中,教大家构建自己的大语言模型,如ChatGLM-6B。
21188 19
AI风口,算力无忧!
|
弹性计算 并行计算 云栖大会
新品发布|HPC优化实例助力工业制造、生命科学和 EDA 应用加速创新
2023年云栖大会,阿里云弹性计算面向工业仿真、生命科学和芯片设计等行业,阿里云发布了HPC优化实例系列新品,包括内存带宽优化实例hpc8ae、数据和内存优化实例hpc7ip和计算优化实例hpc8y,全面采用物理核,与通用计算实例相比性能提升40%。
|
机器学习/深度学习 人工智能 并行计算
研发为底、生态为径、AI为翼——全国一体化算力算网调度平台正式发布
研发实力是一家芯片设计公司的核心竞争力,英伟达从发展初期就重视研发生产力,以高投入换取高回报不断提升产品竞争力。2005 年,AMD 的研发费用为 11 亿美元,是英伟达的 3.2 倍左右。而到了 2022 年,英伟达的研发费用达到 73.4 亿美元,是 AMD 的 1.47 倍。
|
人工智能 供应链 安全
数智洞察 | 算力“南水北调”,让智能无所不及
编者按: 全国一体化大数据中心体系已完成总体布局设计,国家“东数西算”工程和全国一体化算力网建设正式全面启动,一个以算力为核心生产力的时代已经来临。那么,如何认识算力时代?算力时代有哪些基本规律? 全文约3917字,建议阅读时间10分钟。
173 0
|
存储 人工智能 供应链
磐久服务器云栖再创新 高密计算和算力原生已成趋势
2022云栖大会,服务器分论坛精华全分享~
磐久服务器云栖再创新 高密计算和算力原生已成趋势
下一篇
DataWorks