引领企业未来数字基础架构浪潮,中国铁塔探索超大规模分布式算力

简介: 引领企业未来数字基础架构浪潮,中国铁塔探索超大规模分布式算力

来源:云科技时代



分布式算力被中国信通院列入“2024政企数智化转型十大关键词”。中国信通院指出,随着新一代通信规模建设和边缘计算应用的持续部署,越来越多的应用运行和数据生产处理在边端侧开展,这对于传统算力基础设施的部署、调度提出了新要求,分布式算力通过不同范围部署不同规模算力,为政企数智化转型各场景随需获取算力提供新思路。


作为全球最大的通信基础设施服务商,成立十年的中国铁塔拥有210万站址资源、能源设施和近百万处机房,升级22万现有“通信塔”为“数字塔”……依托自有超大规模分布式算力资源,中国铁塔在2024年启动了分布式算力池建设,打造超大规模分布式资源池,该项目是国内通信行业首个集云计算、云原生、大数据、AI、边缘计算等多元算力于一体,覆盖范围最广、开放兼容性最好、一云多芯的自有资源分布式节点项目。


中国铁塔信息技术研究院院长叶臻强调,中国铁塔分布式资源池项目取得的成绩,说明整个行业都处于从集中大型云到边端小型云的发展过程中。当前,算力正从集中式向“云边端”分布式范式转变,根据中国铁塔、中国信息通信研究院等二十余家单位共同编写的《2024边缘算力蓝皮书》,边缘算力的多项技术目前还在处于研究阶段,仍需进一步展开技术研究和概念验证工作。


随着大型语言模型、工业大模型等智能化应用热度不断高涨,边缘算力作为产业智能化发展的数字化底座将迎来战略机遇期。而中国铁塔分布式资源池项目,实践了超大规模分布式节点建设,对推动边缘算力发展和技术落地,有着重大技术价值和产业意义。


发展数字经济,向边缘算力要业务创新力


2014年7月,中国铁塔成立,负责统筹建设通信铁塔设施,进一步提高基础设施共建共享水平。2019年,中国铁塔正式开启了“一体两翼”业务布局,即以面向通信行业的业务为“一体”,以依托独特资源优势面向社会的智联业务和能源业务为“两翼”。


十年来,中国铁塔不仅成为全球最大的通信基础设施服务商,也成为数字经济的创新领军者。在发展“两翼”业务过程中,中国铁塔推进“一塔多用”,将“通信塔”升级为“数字塔”,即在铁塔上挂载环境监测仪、气象监测仪、基站CDN、传感器等多种信息化设备,可以满足行业企业视觉感知、数据采集、图像分析、信息处理等数字化需求。


此外,中国铁塔还推进从“通信机房”变“数据机房”,布局边缘算力网络。中国铁塔拥有近100万分布式机房,具备完备的电力供应和维护体系,打造了一流的分布式算力网络,大力发展具有“分布式、低时延、低成本、小带宽、一定的算力储力”5个特点的边缘算力网络。


在数字塔和数据机房的边缘端与边缘算力配合下,中国铁塔建立了开放的算法仓,构建了中高点位场景国内领先的AI算法生态。通过铁塔算法仓平台+多种自研AI算法,就近为行业客户提供一站式人工智能服务,通过算法的快速部署、资源灵活调度、多种算法智能分析、告警实时推送等服务进行业务创新,例如船只识别、道路识别、机械施工、烟火侦测等。


目前,中国铁塔已经形成了“前端视频采集+边缘AI计算+云端AI计算”的“端边云”技术架构体系,自主研发了分布式视频监测平台、自主定制边缘网关、自研AI算法等,实现多个领域的技术创新。在“端边云”技术架构和遍布全国的边缘算力资源支持下,中国铁塔已经为40多个行业数字化转型赋智赋能。


启动分布式资源池建设,深入推进数字中国


随着“一体两翼”战略的深入实施,中国铁塔启动了分布式资源池建设项目,目标是将遍布数百万平方公里的海量数字基础设施组建成一张“数字天网”,通过新一代信息通信技术赋能千行百业实现数字化转型,服务“数字中国”战略蓝图实现。


叶臻院长介绍,中国铁塔的信息化和数字化建设十年历程经历了三个阶段的发展,伴随企业业务创新的推进,不断提升相关资源和能力建设。


2014年7月伴随中国铁塔的挂牌,中国铁塔也相应建立了初期的IT能力。2015年10月,中国铁塔承接了145万座铁塔,开始了数字化的第一个阶段建设。在第一阶段,公司明确了信息化系统一级平台、一点支撑全国的原则,这个阶段主要支撑“一体”业务,采用的IT资源主要以租用为主。


在第二阶段,内部“一体”业务的数字化能力建设基本完成,开始发展智联业务等对外服务的能力。在运维方面服务于第一阶段中的运维监控,在全国一级平台的调度能力、铁塔站址资源和全国八万多合作伙伴的支持下,让中国铁塔的运维能力更具优势。在业务方面,中国铁塔数字化能力由内向外发展,按照公司整体战略要求,变“通信塔”为“数字塔”。


第三阶段,中国铁塔提出“五型五化”的发展要求,即共享型、服务型、科技型、创新型、价值型以及专业化、集约化、精益化、高效化、数字化,其中数字化贯穿于其他“四化”的全过程,也对数字化能力提出了更高要求。例如,在网络安全上面,不仅仅是按照传统的网络架构建设,还要建设防攻击的安全能力和运维能力等高阶网安能力等。


此外,由于中国铁塔两百多万座铁塔分布在全国,从数据采集的压力来看,集中资源池的模式面临很大挑战。中国铁塔从2020年开始尝试利用分布在全国的自有小型机房,建设分布式节点,并且与浪潮云海合作,将云平台的分布建设、逻辑集中的管理模式,应用到实际数字化底座的建设中。


实际上,随着数字塔业务的发展,中国铁塔越来越面临业务创新的挑战。例如,中国铁塔每数据中心每日新增数据量数十TB,预计2025年每数据中心接入约二十万站,未来数据规模将达数十PB级别,且存在大量的视频、图像等非结构化数据。


此外,中国铁塔的设备数量极多,所有设施都需要接入平台中实现统一纳管。由于基础设施分布地域跨度极大,同时要求在算力下沉的同时,实现多数据中心的统一运维管理和“云边端”协同。

image.png

叶臻院长强调,中国铁塔启动自有资源分布式算力池建设主要基于三个方面的考虑。


第一是基于业务特点考虑,基础设施资源分散在全国各地,而且也面临地方数据数据不出省或不出地市的需求,因此既要解决客户需求又要实现统一管理。而分布式算力的业务逻辑和管理逻辑的相对分离,恰好满足这两个需求,可以将用户侧的管理结果留在省内,资源侧的管理则集中到总部,实现IT建设随业务发展而行。


第二,从经济性考虑。由于中国铁塔在各地的都是小型机房,大多数位于中国铁塔属地分公司购置的综合楼内,不需要专门征用大型土地以及增加管理难度。而将综合楼用于机房建设,也节约了成本,从经济性角度来看,加强了对自身资产的有效使用。


第三,从业务前瞻性考虑。在发展数字经济当中,中国铁塔依托丰富的分布式资源,可能成为数据采集方面最有优势的企业,将来在数据的采集、存储和通过边缘网络传送到其他数字资源进行处理时,分布式中间节点将对企业未来的发展带来很大便利。中国铁塔分布式资源池建成后,将带来显著的经济和社会价值。中国铁塔基站分布在全国各地,对基站的数据源采集后可用于社会治理的方方面面,例如可以采集道路、农田等各行各业的数据,用于耕地保护、治安、森林防火、河流监控、大气污染防控、地震强度预警预报等,对数字经济的发展提供强有力支撑。目前铁塔的智联业务按行业开展,一旦实现数据共享,产生的经济和社会价值就可能翻倍。


战略再升级,分布式节点支撑边缘算力大发展


作为目前国内超大规模的分布式资源池,中国铁塔分布式资源池项目的建设难点在于地域跨度极大、设备数量极多、数据类型复杂,需要解决单数据中心跨类别多元异构资源统一管理、多数据中心高效调度运维以及可持续建设等严峻挑战。这一项目由浪潮云海负责实施,浪潮云海以可演进的私有云理念,打造面向未来的“云数智、云网安一体化”云底座,确保中国铁塔技术架构的升级迭代以及全国数据中心的持续建设。


中国铁塔分布式资源池项目在接入并纳管海量数字基础设施的同时,进一步融合人工智能、大数据、物联网等多样化的数字技术,实现从独立系统到融合系统的转变、从被动记录型系统到主动决策型系统的转变、从业务管控到场景赋能的转变,支撑企业全面的数字化、智能化转型。


中国铁塔期望通过建设分布式资源池项目,发挥自有资源优势、自主掌控技术架构、调整算力资源费用组成、保证业务可控,持续打造具有中国铁塔特色的混合资源体系。中国铁塔分布式算力池建设项目的目标为实现“全国一朵云、两级多中心”,在各省建立满足虚拟化、云原生、AI识别等场景智算中心,实现算力的就近调度、就近服务。


分布式算力池的建设,希望通过自建的方式降低资源成本的投入,将自有机房的能力共享出来,增加业务的灵活性和创新能力满足“一体两翼”对资源的快速、低成本、高可控需求。配合中国铁塔“十四五”规划,中国铁塔分布式算力池项目启动了首期山东、辽宁、湖南等6个省的骨干节点建设,后续将推进到更多省份。


浪潮云海基于中国铁塔的项目建设需求,明确了软硬解耦、存算分离、IaaS异构兼容、PaaS生态融合等建设原则。InCloud OS通过分层解耦、开放标准和一云多芯的创新架构设计,实现以云为核心的数字化基础设施的模块化、组件化封装,帮助客户构建持续演进的下一代私有云数据中心,为企业业务创新提供多元融合和高效便捷的私有云平台,云海OS的最新特色包括精细化基础设施管理、云原生PaaS、智算融合、一云多芯等。

image.png

浪潮云海方案为中国铁塔提供了四大方案价值:


第一,提升信息化服务水平、提升资源方法效率、实现数智化运维,通过分布式数据中心,信息化支撑响应效率由数天缩短至2小时,资源管理效率大幅提升,采用“末端视频采集+云端AI计算+边缘AI计算”等手段,基本实现了自动巡检、自主派单、智能资管等功能,做到了远程管理、不上站管理,支撑了遍布全国的铁塔站址的智能化、数字化运维。


第二,降本增效、经济效益增加,自有资源分布式节点数据中心的持续建设助力节约信息化投入。


第三,多元融合、推动数据中心持续演进、支撑铁塔未来战略,浪潮云海云平台的可演进理念,未来将伴随中国铁塔围绕新基建、空间数智化治理、人工智能、边缘算力网络、低空经济等多个方面,加速推进战略性新兴产业和未来产业发展,加快形成新质生产力。


第四,助力数字中国建设、提升社会安全性,建设云网融合、智能敏捷、绿色低碳、安全可靠的智能化综合性数字信息基础设施,有力支撑网络强国。


针对首批建成的6个省级分布式算力节点,中国铁塔信息技术研究院副院长王江峰介绍:中国铁塔在分布式算力资源池建立以后具备统一云管平台,通过统一的云管平台实现了对已建成的六个节点的统一管理、统一监控、统一调度和统一运营,资源在哪里、有多少、谁在用,都一览无余、掌控自如,实现了资源高效和精准利用;从安全层面看,平台采用了分布式架构,避免了硬件故障带来的数据损失;同时,以容灾备份机制实现容灾数据的安全性、完整性;此外,中国铁塔还结合国内顶尖的安全厂商技术构建了网络安全机制,实现网络平台数据的完全可用。


超大规模分布式云,打造边缘算力新样板


中国铁塔信息技术研究院逐年滚动规划,特别是在“十四五”伊始正式发布数字化建设规划和IT能力建设规划,以匹配公司1+N的规划目标。“十四五”即将收官,中国铁塔整体数字化能力、数字化底座、安全保障和满足业务发展能力,达到了新阶段。中国铁塔自有资源分布式算力池,基于超大规模分布式云,为数字经济打造了边缘算力新样板,将承接“十四五”、开启“十五五”。


浪潮云海首席科学家张东介绍,从分布式算力的角度来看,中国铁塔分布式算力资源在中国甚至在全球都算超大规模,这为实践超大规模分布式节点、发展边缘算力和边缘计算技术,提供了难得的机会。


中国铁塔分布式算力池浪潮云海方案的整体技术特色包括:以IaaS、PaaS分层解耦的原则建设云平台,融合云上安全生态,面向未来构建云数智、云网安一体化的数字化底座;边缘计算能力增强,进一步完善多协议端设备的生命周期管理功能,增强异构边缘资源的统一管理及多地域边缘应用按需编排能力;构建面向分布式、大规模场景的智能化运维能力,实现巡检工具化、管理自动化、运维智能化,提升数据中心自治能力;在存储先进性方面,按照中国铁塔业务需求实现块存储、文件存储、对象存储分级建设,面向高速IO场景构建全闪资源池,满足及时响应需求,面向海量存储场景构建混闪资源池,采用领先的RDMA技术提升分布式存储性能,实现NVMe-OF、ISCSI、FC等多协议类型全兼容。


由于中国铁塔算力资源的超大规模特性,浪潮云海在提供方案时,双方也进行了联合技术攻关。浪潮云海云计算方案总监刘健介绍,中国铁塔自有分布式资源具有环境复杂、跨度大、规模大等特点,对于解决方案提出了特殊的挑战。双方在项目推进过程中组成了联合项目组,共同解决技术挑战、落实技术方案。

image.png

中国铁塔信息技术研究院维护室经理王焱介绍,中国铁塔分布式算力资源池首期项目推进过程遇到了很多挑战:首先是异构,不同节点具有不同厂商、不同类型的设备,需要考虑异构设备的兼容性;其次是可靠性问题,特别是系统连续性的要求,对自建分布式资源平台提出了较大挑战,最终双方合作解决了挑战,包括在架构设计初期对容错方面进行了较大的投入;第三是网络可靠性,因为分布式算力节点分布在不同的地理位置上,网络比较复杂,还有I/O性能的挑战,浪潮云海通过专题优化,结合硬件的I/O能力和网络SDN的能力,最终解决了大规模并发场景的问题;最后是网络安全,因为云平台上承载的是企业敏感数据,如何保证不被未授权的人访问、抵御外部攻击和内部泄露,中国铁塔与包括浪潮云海在内的业界网络安全企业合作。


叶臻院长介绍,与浪潮云海双方合作的分布式资源池建设项目,既提高了工作效率,也加强了资源管理能力。同时,浪潮云海在网络安全支撑方面也给予了全面支持。


【展望未来】中国铁塔分布式资源池将成为中国乃至全球超大规模分布式节点和边缘算力的样板工程,为探索和发展分布式云、边缘算力与边缘计算和分布式AI等提供了广阔的空间和机会。中国铁塔分布式资源池在推动通信业数字化转型的同时,也将为深入推进数实融合、发展数字经济、提速数字中国,提供源源不断的动力和动能。正如叶臻院长强调,中国铁塔和浪潮云海双方强强联合,不仅有过去的成果,还有更加辉煌的未来!



相关文章
|
29天前
|
存储 缓存 NoSQL
分布式系统架构8:分布式缓存
本文介绍了分布式缓存的理论知识及Redis集群的应用,探讨了AP与CP的区别,Redis作为AP系统具备高性能和高可用性但不保证强一致性。文章还讲解了透明多级缓存(TMC)的概念及其优缺点,并详细分析了memcached和Redis的分布式实现方案。此外,针对缓存穿透、击穿、雪崩和污染等常见问题提供了应对策略,强调了Cache Aside模式在解决数据一致性方面的作用。最后指出,面试中关于缓存的问题多围绕Redis展开,建议深入学习相关知识点。
179 8
|
1月前
|
机器学习/深度学习 计算机视觉
Make U-Nets Great Again!北大&华为提出扩散架构U-DiT,六分之一算力即可超越DiT
北京大学和华为研究人员提出U-shaped Diffusion Transformers(U-DiTs),重新审视U-Net架构在扩散模型中的潜力。通过引入Token Downsampling方法,U-DiTs在ImageNet 256x256和512x512生成任务中显著提升性能并降低计算成本。实验表明,U-DiT模型不仅超越了DiT模型的性能,在计算效率上也更具优势。论文地址:https://arxiv.org/pdf/2405.02730
71 43
|
6天前
|
弹性计算 负载均衡 安全
【上云基础系列-02】企业推荐!必学必会的上云标准架构(弹性架构)
本文介绍上云标准弹性架构,针对企业业务发展需求,推荐使用多服务器的弹性架构而非单体架构。方案包含负载均衡、NAT网关、云服务器ECS、云数据库RDS等组件,确保业务的负载分担、冗余备份及平滑扩展。通过统一公网暴露面管理和VPC网络设计,保障架构的稳定性、安全性和可扩展性。该架构适用于中小企业上云,避免性能瓶颈和迭代升级困难,支持业务持续发展。更多内容可参考下方演进说明总览。
|
1月前
|
存储 Prometheus Cloud Native
分布式系统架构6:链路追踪
本文深入探讨了分布式系统中的链路追踪理论,涵盖追踪与跨度的概念、追踪系统的模块划分及数据收集的三种方式。链路追踪旨在解决复杂分布式系统中请求流转路径不清晰的问题,帮助快速定位故障和性能瓶颈。文中介绍了基于日志、服务探针和边车代理的数据收集方法,并简述了OpenTracing、OpenCensus和OpenTelemetry等链路追踪协议的发展历程及其特点。通过理解这些概念,可以更好地掌握开源链路追踪框架的使用。
98 41
|
1月前
|
存储 缓存 安全
分布式系统架构7:本地缓存
这是小卷关于分布式系统架构学习的第10篇文章,主要介绍本地缓存的基础理论。文章分析了引入缓存的利弊,解释了缓存对CPU和I/O压力的缓解作用,并讨论了缓存的吞吐量、命中率、淘汰策略等属性。同时,对比了几种常见的本地缓存工具(如ConcurrentHashMap、Ehcache、Guava Cache和Caffeine),详细介绍了它们的访问控制、淘汰策略及扩展功能。
76 6
|
2月前
|
监控 数据可视化 架构师
为什么企业需要开展架构治理?
随着数字化转型加速,企业面临的技术和业务环境日益复杂,传统架构难以应对快速变化的需求。企业架构治理成为数字化转型的关键,通过确保技术与战略对接、优化资源利用、降低风险和复杂性,提升企业灵活性、效率和创新能力,支持快速响应市场变化,推动数字化转型成功。
160 7
为什么企业需要开展架构治理?
|
1月前
|
存储 关系型数据库 分布式数据库
[PolarDB实操课] 01.PolarDB分布式版架构介绍
《PolarDB实操课》之“PolarDB分布式版架构介绍”由阿里云架构师王江颖主讲。课程涵盖PolarDB-X的分布式架构、典型业务场景(如实时交易、海量数据存储等)、分布式焦点问题(如业务连续性、一致性保障等)及技术架构详解。PolarDB-X基于Share-Nothing架构,支持HTAP能力,具备高可用性和容错性,适用于多种分布式改造和迁移场景。课程链接:[https://developer.aliyun.com/live/253957](https://developer.aliyun.com/live/253957)。更多内容可访问阿里云培训中心。
[PolarDB实操课] 01.PolarDB分布式版架构介绍
|
2月前
|
监控 数据可视化
如何通过建模工具实现企业架构治理全流程管理
企业架构治理工具通过构建统一的架构语言、可视化建模、流程管理、资源整合和多场景分析,实现企业架构的全生命周期管理。该工具赋能企业数字化转型,确保业务、平台、数据及技术相互耦合闭环,提供从规划到决策的一站式服务,助力提升业务运营、优化组织管理和加速数字化建设。
56 2
如何通过建模工具实现企业架构治理全流程管理
|
1月前
|
人工智能 运维 监控
云卓越架构:企业稳定性架构体系和AI业务场景探秘
本次分享由阿里云智能集团公共云技术服务部上海零售技术服务高级经理路志华主讲,主题为“云卓越架构:企业稳定性架构体系和AI业务场景探秘”。内容涵盖四个部分:1) 稳定性架构设计,强调高可用、可扩展性、安全性和可维护性;2) 稳定性保障体系和应急体系的建立,确保快速响应和恢复;3) 重大活动时的稳定重宝策略,如大促或新业务上线;4) AI在企业中的应用场景,包括智能编码、知识库问答、创意广告生成等。通过这些内容,帮助企业在云计算环境中构建更加稳定和高效的架构,并探索AI技术带来的创新机会。
|
1月前
|
监控 架构师 安全
企业架构(EA)项目开发综合指南
企业架构(EA)是一种全面的方法,用于对齐企业的业务目标与其 IT 战略和资源。EA 涵盖了企业的各个层面,包括业务流程、信息流、应用系统和技术基础设施。本指南将详细探讨 EA 项目开发的关键步骤、[EA](https://www.visual-paradigm.com/features/enterprise-architecture-diagram-tool/) 与 TOGAF、ArchiMate 以及其他建模图(如 BPMN 和 UML)之间的关系,以及推荐 Visual Paradigm 作为 EA 团队的最佳解决方案。
78 3