今天,ICT(信息和通信技术)产业的碳排放量在全球总排放量中的占比已不容忽视。随着我国2060碳中和目标的提出,包括中国联通在内的广大电信运营商、设备商以及云服务提供商等也纷纷将绿色节能数据中心的建设作为未来网络基础设施建设的重点,PUE(Power Usage Effectiveness,能源使用效率)这一指标备受关注。
1 推动算力中心能耗管理需要转换思路
PUE是数据中心总能耗与其中IT设备能耗的比值,当前主流数据中心PUE值普遍都达到了1.X这一水准,其中1可看作IT设备能耗,而X则是为IT设备制冷、供电所带来的额外能耗。由于PUE值是衡量数据中心绿色节能水平的关键指标,为此借助各类方案对散热效率的极限深挖来降低PUE值,长久以来都是数据中心建设和升级时孜孜以求的目标。但PUE值的可压降空间显然正在缩小,且越逼近极限值1,在建设及维护上所面临的成本压力就越大,甚至大幅超出合理预算,出现节能但不省钱的尴尬局面。
图一PUE值与数据中心成本关系
在中国联通看来,绿色数据中心的终极目标是整体能耗的降低,追求X的降低固然是一个方向,但当X的降低遇到瓶颈,能否从IT设备能耗入手,让1变成0.9、0.8是否可行?在中国联通专家看来,虽然技术上可行,但风险很大。因为IT设备的能耗降低势必会带来处理性能的下降,这对于为亿万用户提供实时语音、数据服务的5G通信网络来说,很有可能影响业务的服务质量甚至可用性,造成难以预估的损失。那么能否通过实时感知上层业务的算力需求和服务质量指标,在确保算力需求得到满足和服务质量满足标准的前提下进行能耗控制呢。中国联通与英特尔就此开展合作,结合中国联通在网络上丰富的运营经验和英特尔全面丰富的AI+节能技术,共同打造面向业务的智能节能解决方案。
2 网络智能化 + 英特尔产品技术组合 以预测模型实现节能减排新方案
要实时了解业务对算力的需求,最有效的方法当是建立起一个预测模型。而如今,逐渐成为行业趋势的网络智能化技术,让模型构建的步伐向前迈进了坚实的一步。所谓网络智能化技术,简而言之就是网络+AI的融合式创新,它是通过AI与通信网络的硬件、软件、系统等深度融合,为网络运营和服务呈现更多的智能化特性。这其中很重要的一点,是用户能通过AI能力对各类网络数据实现更有效的感知、采集、处理和反馈。利用这一特性,中国联通正借助数据中心中各类业务负载数据,来打造全新的预测模型。例如话务量这样的业务负载,其是一个典型的时间序列模型,即业务负载是实时变化,且具有时间上的先后顺序。与之相对的,业务负载对处理器、内存等服务器资源的需求也是如此。因此要构建预测方案,只要明确哪些服务器资源与业务量有着较大关联,就能在根据预测结果制定资源动态调整方案时,不影响业务的连续性。而英特尔硬件产品所具有的一系列先进特性,为服务器节能提供了灵活的调节能力。中国联通数据中心所部署的基于英特尔® 架构的硬件基础设施就提供了内置功耗调解机制,可根据不同业务负载对核心频率(Core Frequency)和非核心频率(Uncore Frequency)进行精细控制,可在满足 SLA 等级的前提下进一步降低功耗。同时,在英特尔首席工程师、人工智能首席架构师夏磊看来,得益于AI技术、先进软硬件设备以及数据的充分融合,借助网络智能化兴起所涌现的各类实时性分析和预测AI应用,将天然成为5G网络等开展性能优化和能耗主动管理的助力。现在中国联通就正与英特尔一起,利用基于BigDL组件所构建的Chronos框架打造数据中心能耗优化新方案,对资源需求进行准确预测和精细化管理,以动态调整的方式“锱铢必较”服务器能耗,从而使数据中心整体能耗获得有效降低。
3 使用网络AI实现节能减排的第一步 选择更具效率的AI框架
传统上,构建时间序列预测模型并形成高效可用的AI应用并非易事,因为这包含了从数据采集和预处理、特征工程再到模型训练等一系列环节,如果每一个环节都需要中国联通的工程师们逐一从头设计打造,无疑费时费力。
图二 构建时间序列预测模型的各个环节
同时,为提升模型的准确性和性能,构建过程中往往还需要耗费巨大的人力和时间资源对超参数进行手动调优来实现更高效的超参数优化(Hyperparameter optimization,HPO),这同样也是中国联通面临的重要挑战。
图三 Chronos框架基本架构
为了应对以上挑战,中国联通选择了由英特尔提供的Chronos框架,从而能够快速且有效地完成上述流程。这一源自BigDL的框架(由英特尔开源的统一大数据分析和人工智能平台),为用户提供了以下三项能力:
- 数据处理 & 特征工程(Data Processing & Feature Engineering)组件:其内置了70多个数据处理和特征工程工具,通过TSDataset API接口来供用户方便地调用,从而快捷高效地完成数据预处理和特征工程流程;
- 内置模型(Built-in Models)组件:内置10余个可用于时间序列预测、检测和模拟的独立深度学习和机器学习模型,功能涵盖预测器(Forecasters)、检测器(Detectors)以及模拟器(Simulators);
- 可选的HPO组件:通过高度集成、可扩展和自动化的工作流(通过AutoTSEstimator等API实现),能帮助中国联通完成全栈的自动化机器学习过程。英特尔提供的多种优化方式,如所集成的ONNX runtime以及英特尔® oneAPI AI Analytics Toolkit等,均能在推理过程中提供良好支持。
4 使用网络AI实现节能减排的第二步 构建有效5GC网元资源占用率预测方案
基于Chronos框架,中国联通构建5GC网元资源占用率预测方案就变得方便而有条理。整个流程可以分为以下几步来实现:
使用历史业务数据(如话务量数据等)与服务器资源利用率日志(如处理器占用率等)进行建模,并由Chronos框架提供的TSDataset API接口对时间序列数据快速执行填充、缩放等操作,并开展自动特征生成;通过AutoTSEstimator等API进行超参数搜索,并根据预测目标检索出最佳超参数集,进而优化模型和数据处理工序并形成时间序列预测模型;使用这一模型对实时业务数据进行推理(或进行效果评估和优化),获得最终的处理器占用率预测数据。
图四 中国联通基于Chronos框架的时间序列预测方案基本流程
目前,新方案已在中国联通5GC测试资源池中进行了实际测试,处理器占用率预测结果与实际值对比的最终MSE结果仅为1.71,而实际的处理器占用率预测绝对误差平均小于1.4%,达到了中国联通对新方案的预期。那么使用这一预测方案究竟能为中国联通的绿色节能带来哪些好处呢?中国联通的专家们算了一笔账,预测方案与处理器降频技术相结合,预计能使单台服务器降低能耗15%以上,推衍到整体云资源池,每年可直接节约能源4,600万度。结合其它节能措施,每年可减少二氧化碳排放约6万吨。由此可见,未来的绿色数据中心建设,未必仅有降低PUE这条“华山小道”,借助网络智能化趋势带来的AI方案,同样也能另辟蹊径,在ICT领域开辟一条节能减排的新道路。而英特尔也在这一方向上持续发力,为包括中国联通在内的广大电信运营商、设备商以及云服务提供商提供从算力设施到AI框架的全面支持,帮助实现更大范围、更大规模的节能减排效果, 将构建“绿色数据中心新型信息基础设施”落到实处。