引领企业未来数字基础架构浪潮,中国铁塔探索超大规模分布式算力

简介: 引领企业未来数字基础架构浪潮,中国铁塔探索超大规模分布式算力

来源:云科技时代



分布式算力被中国信通院列入“2024政企数智化转型十大关键词”。中国信通院指出,随着新一代通信规模建设和边缘计算应用的持续部署,越来越多的应用运行和数据生产处理在边端侧开展,这对于传统算力基础设施的部署、调度提出了新要求,分布式算力通过不同范围部署不同规模算力,为政企数智化转型各场景随需获取算力提供新思路。


作为全球最大的通信基础设施服务商,成立十年的中国铁塔拥有210万站址资源、能源设施和近百万处机房,升级22万现有“通信塔”为“数字塔”……依托自有超大规模分布式算力资源,中国铁塔在2024年启动了分布式算力池建设,打造超大规模分布式资源池,该项目是国内通信行业首个集云计算、云原生、大数据、AI、边缘计算等多元算力于一体,覆盖范围最广、开放兼容性最好、一云多芯的自有资源分布式节点项目。


中国铁塔信息技术研究院院长叶臻强调,中国铁塔分布式资源池项目取得的成绩,说明整个行业都处于从集中大型云到边端小型云的发展过程中。当前,算力正从集中式向“云边端”分布式范式转变,根据中国铁塔、中国信息通信研究院等二十余家单位共同编写的《2024边缘算力蓝皮书》,边缘算力的多项技术目前还在处于研究阶段,仍需进一步展开技术研究和概念验证工作。


随着大型语言模型、工业大模型等智能化应用热度不断高涨,边缘算力作为产业智能化发展的数字化底座将迎来战略机遇期。而中国铁塔分布式资源池项目,实践了超大规模分布式节点建设,对推动边缘算力发展和技术落地,有着重大技术价值和产业意义。


发展数字经济,向边缘算力要业务创新力


2014年7月,中国铁塔成立,负责统筹建设通信铁塔设施,进一步提高基础设施共建共享水平。2019年,中国铁塔正式开启了“一体两翼”业务布局,即以面向通信行业的业务为“一体”,以依托独特资源优势面向社会的智联业务和能源业务为“两翼”。


十年来,中国铁塔不仅成为全球最大的通信基础设施服务商,也成为数字经济的创新领军者。在发展“两翼”业务过程中,中国铁塔推进“一塔多用”,将“通信塔”升级为“数字塔”,即在铁塔上挂载环境监测仪、气象监测仪、基站CDN、传感器等多种信息化设备,可以满足行业企业视觉感知、数据采集、图像分析、信息处理等数字化需求。


此外,中国铁塔还推进从“通信机房”变“数据机房”,布局边缘算力网络。中国铁塔拥有近100万分布式机房,具备完备的电力供应和维护体系,打造了一流的分布式算力网络,大力发展具有“分布式、低时延、低成本、小带宽、一定的算力储力”5个特点的边缘算力网络。


在数字塔和数据机房的边缘端与边缘算力配合下,中国铁塔建立了开放的算法仓,构建了中高点位场景国内领先的AI算法生态。通过铁塔算法仓平台+多种自研AI算法,就近为行业客户提供一站式人工智能服务,通过算法的快速部署、资源灵活调度、多种算法智能分析、告警实时推送等服务进行业务创新,例如船只识别、道路识别、机械施工、烟火侦测等。


目前,中国铁塔已经形成了“前端视频采集+边缘AI计算+云端AI计算”的“端边云”技术架构体系,自主研发了分布式视频监测平台、自主定制边缘网关、自研AI算法等,实现多个领域的技术创新。在“端边云”技术架构和遍布全国的边缘算力资源支持下,中国铁塔已经为40多个行业数字化转型赋智赋能。


启动分布式资源池建设,深入推进数字中国


随着“一体两翼”战略的深入实施,中国铁塔启动了分布式资源池建设项目,目标是将遍布数百万平方公里的海量数字基础设施组建成一张“数字天网”,通过新一代信息通信技术赋能千行百业实现数字化转型,服务“数字中国”战略蓝图实现。


叶臻院长介绍,中国铁塔的信息化和数字化建设十年历程经历了三个阶段的发展,伴随企业业务创新的推进,不断提升相关资源和能力建设。


2014年7月伴随中国铁塔的挂牌,中国铁塔也相应建立了初期的IT能力。2015年10月,中国铁塔承接了145万座铁塔,开始了数字化的第一个阶段建设。在第一阶段,公司明确了信息化系统一级平台、一点支撑全国的原则,这个阶段主要支撑“一体”业务,采用的IT资源主要以租用为主。


在第二阶段,内部“一体”业务的数字化能力建设基本完成,开始发展智联业务等对外服务的能力。在运维方面服务于第一阶段中的运维监控,在全国一级平台的调度能力、铁塔站址资源和全国八万多合作伙伴的支持下,让中国铁塔的运维能力更具优势。在业务方面,中国铁塔数字化能力由内向外发展,按照公司整体战略要求,变“通信塔”为“数字塔”。


第三阶段,中国铁塔提出“五型五化”的发展要求,即共享型、服务型、科技型、创新型、价值型以及专业化、集约化、精益化、高效化、数字化,其中数字化贯穿于其他“四化”的全过程,也对数字化能力提出了更高要求。例如,在网络安全上面,不仅仅是按照传统的网络架构建设,还要建设防攻击的安全能力和运维能力等高阶网安能力等。


此外,由于中国铁塔两百多万座铁塔分布在全国,从数据采集的压力来看,集中资源池的模式面临很大挑战。中国铁塔从2020年开始尝试利用分布在全国的自有小型机房,建设分布式节点,并且与浪潮云海合作,将云平台的分布建设、逻辑集中的管理模式,应用到实际数字化底座的建设中。


实际上,随着数字塔业务的发展,中国铁塔越来越面临业务创新的挑战。例如,中国铁塔每数据中心每日新增数据量数十TB,预计2025年每数据中心接入约二十万站,未来数据规模将达数十PB级别,且存在大量的视频、图像等非结构化数据。


此外,中国铁塔的设备数量极多,所有设施都需要接入平台中实现统一纳管。由于基础设施分布地域跨度极大,同时要求在算力下沉的同时,实现多数据中心的统一运维管理和“云边端”协同。

image.png

叶臻院长强调,中国铁塔启动自有资源分布式算力池建设主要基于三个方面的考虑。


第一是基于业务特点考虑,基础设施资源分散在全国各地,而且也面临地方数据数据不出省或不出地市的需求,因此既要解决客户需求又要实现统一管理。而分布式算力的业务逻辑和管理逻辑的相对分离,恰好满足这两个需求,可以将用户侧的管理结果留在省内,资源侧的管理则集中到总部,实现IT建设随业务发展而行。


第二,从经济性考虑。由于中国铁塔在各地的都是小型机房,大多数位于中国铁塔属地分公司购置的综合楼内,不需要专门征用大型土地以及增加管理难度。而将综合楼用于机房建设,也节约了成本,从经济性角度来看,加强了对自身资产的有效使用。


第三,从业务前瞻性考虑。在发展数字经济当中,中国铁塔依托丰富的分布式资源,可能成为数据采集方面最有优势的企业,将来在数据的采集、存储和通过边缘网络传送到其他数字资源进行处理时,分布式中间节点将对企业未来的发展带来很大便利。中国铁塔分布式资源池建成后,将带来显著的经济和社会价值。中国铁塔基站分布在全国各地,对基站的数据源采集后可用于社会治理的方方面面,例如可以采集道路、农田等各行各业的数据,用于耕地保护、治安、森林防火、河流监控、大气污染防控、地震强度预警预报等,对数字经济的发展提供强有力支撑。目前铁塔的智联业务按行业开展,一旦实现数据共享,产生的经济和社会价值就可能翻倍。


战略再升级,分布式节点支撑边缘算力大发展


作为目前国内超大规模的分布式资源池,中国铁塔分布式资源池项目的建设难点在于地域跨度极大、设备数量极多、数据类型复杂,需要解决单数据中心跨类别多元异构资源统一管理、多数据中心高效调度运维以及可持续建设等严峻挑战。这一项目由浪潮云海负责实施,浪潮云海以可演进的私有云理念,打造面向未来的“云数智、云网安一体化”云底座,确保中国铁塔技术架构的升级迭代以及全国数据中心的持续建设。


中国铁塔分布式资源池项目在接入并纳管海量数字基础设施的同时,进一步融合人工智能、大数据、物联网等多样化的数字技术,实现从独立系统到融合系统的转变、从被动记录型系统到主动决策型系统的转变、从业务管控到场景赋能的转变,支撑企业全面的数字化、智能化转型。


中国铁塔期望通过建设分布式资源池项目,发挥自有资源优势、自主掌控技术架构、调整算力资源费用组成、保证业务可控,持续打造具有中国铁塔特色的混合资源体系。中国铁塔分布式算力池建设项目的目标为实现“全国一朵云、两级多中心”,在各省建立满足虚拟化、云原生、AI识别等场景智算中心,实现算力的就近调度、就近服务。


分布式算力池的建设,希望通过自建的方式降低资源成本的投入,将自有机房的能力共享出来,增加业务的灵活性和创新能力满足“一体两翼”对资源的快速、低成本、高可控需求。配合中国铁塔“十四五”规划,中国铁塔分布式算力池项目启动了首期山东、辽宁、湖南等6个省的骨干节点建设,后续将推进到更多省份。


浪潮云海基于中国铁塔的项目建设需求,明确了软硬解耦、存算分离、IaaS异构兼容、PaaS生态融合等建设原则。InCloud OS通过分层解耦、开放标准和一云多芯的创新架构设计,实现以云为核心的数字化基础设施的模块化、组件化封装,帮助客户构建持续演进的下一代私有云数据中心,为企业业务创新提供多元融合和高效便捷的私有云平台,云海OS的最新特色包括精细化基础设施管理、云原生PaaS、智算融合、一云多芯等。

image.png

浪潮云海方案为中国铁塔提供了四大方案价值:


第一,提升信息化服务水平、提升资源方法效率、实现数智化运维,通过分布式数据中心,信息化支撑响应效率由数天缩短至2小时,资源管理效率大幅提升,采用“末端视频采集+云端AI计算+边缘AI计算”等手段,基本实现了自动巡检、自主派单、智能资管等功能,做到了远程管理、不上站管理,支撑了遍布全国的铁塔站址的智能化、数字化运维。


第二,降本增效、经济效益增加,自有资源分布式节点数据中心的持续建设助力节约信息化投入。


第三,多元融合、推动数据中心持续演进、支撑铁塔未来战略,浪潮云海云平台的可演进理念,未来将伴随中国铁塔围绕新基建、空间数智化治理、人工智能、边缘算力网络、低空经济等多个方面,加速推进战略性新兴产业和未来产业发展,加快形成新质生产力。


第四,助力数字中国建设、提升社会安全性,建设云网融合、智能敏捷、绿色低碳、安全可靠的智能化综合性数字信息基础设施,有力支撑网络强国。


针对首批建成的6个省级分布式算力节点,中国铁塔信息技术研究院副院长王江峰介绍:中国铁塔在分布式算力资源池建立以后具备统一云管平台,通过统一的云管平台实现了对已建成的六个节点的统一管理、统一监控、统一调度和统一运营,资源在哪里、有多少、谁在用,都一览无余、掌控自如,实现了资源高效和精准利用;从安全层面看,平台采用了分布式架构,避免了硬件故障带来的数据损失;同时,以容灾备份机制实现容灾数据的安全性、完整性;此外,中国铁塔还结合国内顶尖的安全厂商技术构建了网络安全机制,实现网络平台数据的完全可用。


超大规模分布式云,打造边缘算力新样板


中国铁塔信息技术研究院逐年滚动规划,特别是在“十四五”伊始正式发布数字化建设规划和IT能力建设规划,以匹配公司1+N的规划目标。“十四五”即将收官,中国铁塔整体数字化能力、数字化底座、安全保障和满足业务发展能力,达到了新阶段。中国铁塔自有资源分布式算力池,基于超大规模分布式云,为数字经济打造了边缘算力新样板,将承接“十四五”、开启“十五五”。


浪潮云海首席科学家张东介绍,从分布式算力的角度来看,中国铁塔分布式算力资源在中国甚至在全球都算超大规模,这为实践超大规模分布式节点、发展边缘算力和边缘计算技术,提供了难得的机会。


中国铁塔分布式算力池浪潮云海方案的整体技术特色包括:以IaaS、PaaS分层解耦的原则建设云平台,融合云上安全生态,面向未来构建云数智、云网安一体化的数字化底座;边缘计算能力增强,进一步完善多协议端设备的生命周期管理功能,增强异构边缘资源的统一管理及多地域边缘应用按需编排能力;构建面向分布式、大规模场景的智能化运维能力,实现巡检工具化、管理自动化、运维智能化,提升数据中心自治能力;在存储先进性方面,按照中国铁塔业务需求实现块存储、文件存储、对象存储分级建设,面向高速IO场景构建全闪资源池,满足及时响应需求,面向海量存储场景构建混闪资源池,采用领先的RDMA技术提升分布式存储性能,实现NVMe-OF、ISCSI、FC等多协议类型全兼容。


由于中国铁塔算力资源的超大规模特性,浪潮云海在提供方案时,双方也进行了联合技术攻关。浪潮云海云计算方案总监刘健介绍,中国铁塔自有分布式资源具有环境复杂、跨度大、规模大等特点,对于解决方案提出了特殊的挑战。双方在项目推进过程中组成了联合项目组,共同解决技术挑战、落实技术方案。

image.png

中国铁塔信息技术研究院维护室经理王焱介绍,中国铁塔分布式算力资源池首期项目推进过程遇到了很多挑战:首先是异构,不同节点具有不同厂商、不同类型的设备,需要考虑异构设备的兼容性;其次是可靠性问题,特别是系统连续性的要求,对自建分布式资源平台提出了较大挑战,最终双方合作解决了挑战,包括在架构设计初期对容错方面进行了较大的投入;第三是网络可靠性,因为分布式算力节点分布在不同的地理位置上,网络比较复杂,还有I/O性能的挑战,浪潮云海通过专题优化,结合硬件的I/O能力和网络SDN的能力,最终解决了大规模并发场景的问题;最后是网络安全,因为云平台上承载的是企业敏感数据,如何保证不被未授权的人访问、抵御外部攻击和内部泄露,中国铁塔与包括浪潮云海在内的业界网络安全企业合作。


叶臻院长介绍,与浪潮云海双方合作的分布式资源池建设项目,既提高了工作效率,也加强了资源管理能力。同时,浪潮云海在网络安全支撑方面也给予了全面支持。


【展望未来】中国铁塔分布式资源池将成为中国乃至全球超大规模分布式节点和边缘算力的样板工程,为探索和发展分布式云、边缘算力与边缘计算和分布式AI等提供了广阔的空间和机会。中国铁塔分布式资源池在推动通信业数字化转型的同时,也将为深入推进数实融合、发展数字经济、提速数字中国,提供源源不断的动力和动能。正如叶臻院长强调,中国铁塔和浪潮云海双方强强联合,不仅有过去的成果,还有更加辉煌的未来!



相关文章
|
22天前
|
运维 Cloud Native 持续交付
深入理解云原生架构及其在现代企业中的应用
随着数字化转型的浪潮席卷全球,企业正面临着前所未有的挑战与机遇。云计算技术的迅猛发展,特别是云原生架构的兴起,正在重塑企业的IT基础设施和软件开发模式。本文将深入探讨云原生的核心概念、关键技术以及如何在企业中实施云原生策略,以实现更高效的资源利用和更快的市场响应速度。通过分析云原生架构的优势和面临的挑战,我们将揭示它如何助力企业在激烈的市场竞争中保持领先地位。
|
6天前
|
监控 数据可视化 架构师
为什么企业需要开展架构治理?
随着数字化转型加速,企业面临的技术和业务环境日益复杂,传统架构难以应对快速变化的需求。企业架构治理成为数字化转型的关键,通过确保技术与战略对接、优化资源利用、降低风险和复杂性,提升企业灵活性、效率和创新能力,支持快速响应市场变化,推动数字化转型成功。
41 7
为什么企业需要开展架构治理?
|
6天前
|
监控 数据可视化
如何通过建模工具实现企业架构治理全流程管理
企业架构治理工具通过构建统一的架构语言、可视化建模、流程管理、资源整合和多场景分析,实现企业架构的全生命周期管理。该工具赋能企业数字化转型,确保业务、平台、数据及技术相互耦合闭环,提供从规划到决策的一站式服务,助力提升业务运营、优化组织管理和加速数字化建设。
20 2
如何通过建模工具实现企业架构治理全流程管理
|
4天前
|
设计模式 存储 算法
分布式系统架构5:限流设计模式
本文是小卷关于分布式系统架构学习的第5篇,重点介绍限流器及4种常见的限流设计模式:流量计数器、滑动窗口、漏桶和令牌桶。限流旨在保护系统免受超额流量冲击,确保资源合理分配。流量计数器简单但存在边界问题;滑动窗口更精细地控制流量;漏桶平滑流量但配置复杂;令牌桶允许突发流量。此外,还简要介绍了分布式限流的概念及实现方式,强调了限流的代价与收益权衡。
34 11
|
6天前
|
设计模式 监控 Java
分布式系统架构4:容错设计模式
这是小卷对分布式系统架构学习的第4篇文章,重点介绍了三种常见的容错设计模式:断路器模式、舱壁隔离模式和重试模式。断路器模式防止服务故障蔓延,舱壁隔离模式通过资源隔离避免全局影响,重试模式提升短期故障下的调用成功率。文章还对比了这些模式的优缺点及适用场景,并解释了服务熔断与服务降级的区别。尽管技术文章阅读量不高,但小卷坚持每日更新以促进个人成长。
28 11
|
7天前
|
消息中间件 存储 安全
分布式系统架构3:服务容错
分布式系统因其复杂性,故障几乎是必然的。那么如何让系统在不可避免的故障中依然保持稳定?本文详细介绍了分布式架构中7种核心的服务容错策略,包括故障转移、快速失败、安全失败等,以及它们在实际业务场景中的应用。无论是支付场景的快速失败,还是日志采集的安全失败,每种策略都有自己的适用领域和优缺点。此外,文章还为技术面试提供了解题思路,助你在关键时刻脱颖而出。掌握这些策略,不仅能提升系统健壮性,还能让你的技术栈更上一层楼!快来深入学习,走向架构师之路吧!
42 11
|
15天前
|
运维 Kubernetes 调度
阿里云容器服务 ACK One 分布式云容器企业落地实践
阿里云容器服务ACK提供强大的产品能力,支持弹性、调度、可观测、成本治理和安全合规。针对拥有IDC或三方资源的企业,ACK One分布式云容器平台能够有效解决资源管理、多云多集群管理及边缘计算等挑战,实现云上云下统一管理,提升业务效率与稳定性。
|
17天前
|
存储 算法 安全
分布式系统架构1:共识算法Paxos
本文介绍了分布式系统中实现数据一致性的重要算法——Paxos及其改进版Multi Paxos。Paxos算法由Leslie Lamport提出,旨在解决分布式环境下的共识问题,通过提案节点、决策节点和记录节点的协作,确保数据在多台机器间的一致性和可用性。Multi Paxos通过引入主节点选举机制,优化了基本Paxos的效率,减少了网络通信次数,提高了系统的性能和可靠性。文中还简要讨论了数据复制的安全性和一致性保障措施。
33 1
|
25天前
|
NoSQL Java 数据处理
基于Redis海量数据场景分布式ID架构实践
【11月更文挑战第30天】在现代分布式系统中,生成全局唯一的ID是一个常见且重要的需求。在微服务架构中,各个服务可能需要生成唯一标识符,如用户ID、订单ID等。传统的自增ID已经无法满足在集群环境下保持唯一性的要求,而分布式ID解决方案能够确保即使在多个实例间也能生成全局唯一的标识符。本文将深入探讨如何利用Redis实现分布式ID生成,并通过Java语言展示多个示例,同时分析每个实践方案的优缺点。
54 8
|
6天前
|
弹性计算 负载均衡 安全
企业业务上云经典架构方案整体介绍
本次课程由阿里云产品经理晋侨分享,主题为企业业务上云经典架构。内容涵盖用户业务架构现状及挑战、阿里云业务托管经典架构设计、方案涉及的产品选型配置,以及业务初期如何低门槛使用。课程详细介绍了企业业务上云的全流程,帮助用户实现高可用、稳定、可扩展的云架构。