如果说2020年在IT行业中最热门的话题是什么?“新基建”这个词一定是点击量最高的之一。在今年的政府工作报告中,“新基建”这一概念首次写入。按照发改委的最新定义,新基建主要包括信息基础设施、 融合基础设施和创新基础设施三个方面,国家将大力发展以5G、数据中心、工业互联网为主的数字“新基建”。然而,数据中心是我们今天整个社会的耗电大户之一。据统计,2019年中国新增317万台X86服务器,数据中心的耗电量已经占到全国总耗电量的2%,而且这一比例还在快速增长。在中国将环境保护、节约资源定位为与对外开放相提并论的基本国策的时候,如何在“新基建”的数据中心领域做好节能减排,是整个IT行业所面临的挑战之一。为此,中科院与华为公司正在探讨新一代的能效基准框架,以应对中国在新基建过程中,仍能确保环境保护、节约资源的可持续发展目标。
能效基准框架的由来
无疑,今天的数据中心已经和10年前不同,最典型的例子就是计算在今天各行各业无处不在,而且已经从传统的通用计算延伸到更多场景,比如越来越多的应用场景是人脸识别、车牌识别等。在今年初开始的疫情中,红外测量体温结合人脸识别,今天已经广泛出现在公共场所的各个门厅;而在未来的城市治理中,解决交通拥堵的一个重要手段,或许就是CBD在高峰期收费,其依据就是车牌号的识别。"比如现在云计算后端服务已经开始大量使用ARM服务器,这些场景下充分利用了ARM多核计算的优势。还有现在的直播非常火,直播的实时处理也需要用到大量的AI算力。"华为技术有限公司计算DFX架构师马剑涛表示。
华为技术有限公司计算DFX架构师马剑涛
所有这些,需要用到计算,需要用到AI,需要用到NPU/GPU等加速器、高性能集群计算和异构架构。这时候,数据中心采用的处理器种类就变得丰富起来。人们开始用更高的视角,来观察各类服务器的能效比,观察数据中心的绿色节能。众所周知,计算机发展的历史可以追溯到1946年世界上第一台电子计算机ENIAC,功耗为170kW,体积大、功耗高、可靠性差、速度慢、价格昂贵。随后的计算机设计都以此为标准,开始设计体积更小、功耗更低、可靠性更强、速度更快和价格更便宜的计算机——于是,在1965年,Intel联合创始人戈登·摩尔提出了摩尔定律,即芯片上集成电路的数目每18个月翻一番,性能提高一倍,而价格下降一半。由于集成电路技术的发展,半导体芯片的集成度越来越高,芯片越来越小,相应的,由于制程的缩短,其能耗也就更低。不过,遵循摩尔定律的芯片主要是Intel定义的x86架构,也就是传统的大规模数据中心的主流处理器。相对于小型机/大型机来说,x86芯片的特点是价格便宜,通过组成计算集群的方式,可以达到RISC(简单指令集)架构芯片如大型机/小型机的性能,且价格更为亲民。但由于x86架构的指令集是复杂指令集(CISC),虽然编程更容易,但指令平均执行相对更为耗电。小型机/大型机通常采用RISC架构处理器,包括Power、ARM等等,能耗更低,也更省空间。2000年以后,全球开始关注气候变暖的问题,思考如何降低碳排放,IT行业也开始重视服务器的能效问题,2007年出现了Power能效基准,满足了X86服务器的通用计算能效的需求,一直沿用到现在。而今,多样性计算时代已经到来,目前的能效基准已经不能有效适配,因此,行业需要新的能效基准。
新时代呼唤新能效基准
如何提升能效,一直以来是数据中心行业的必答题。以一个中等规模的数据中心为例:该数据中心大约有1000个机柜,每个机柜5KW,每年电费约为4000万人民币。如果我们能够把能效提升10%,就可以节省大约400万元人民币,相当于碳排放减少3000吨。如果按照减少1吨碳排放等效于多种2棵树,我们就相当于每年多种6000棵树。能效的提升,在过去通常得益于两个主要方面:一方面,是芯片制程在不断进步;另一方面,服务器大量采用了新的降低和控制功耗的技术。正因为此,虽然摩尔定律每18个月提升一倍性能,但是服务器的功耗并没有伴随性能的提升同比例增加。事实上,服务器可以借助能效基准工具准确测量和评估服务器在不同载荷水平下的能耗情况,从而为服务器能耗技术评估、服务器选型等提供量化的参考依据。能效基准框架和工具主要包含三部分:首先是模拟被测服务器的工作负载(基于基准定义进行设计和开发的、用于模拟各种应用场景的实际计算过程);其次是功率计和温度计等测试仪表;三是通过执行测试活动和基准计算的评测工具生成并保存测试报告。在过去10年间,由于有了能效基准框架的牵引,各种节能技术蓬勃发展,如自适应休眠、智能风扇调速、功率封顶、华为独有的DEMT动态能效管理技术等,都不断应用于服务器产品,能效分数逐年提升。有数据显示,从2011年到2019年服务器的能效分数从4600分提升到19000分,整整提升了4倍多。然而,目前行业普遍使用的能效基准测试局限于仍然主要适配x86服务器,且局限于传统应用场景,而当今的服务器已经开始广泛应用于大数据和AI。为了更好地模拟服务器行为,能效基准测试需要增加对于AI和大数据负载的支持,同时需要补充更多的负载类型、支持更多的计算架构。另外,负载参数的配置对于系统特征有很大影响,为了避免固定配置可能带来的误导,并反映现实场景的复杂性,需要合理地描述负载参数对应的特征空间。“目前的能效程序都是面向传统的计算密集型负载。但如今大数据/AI负载的应用越来越广泛,负载复杂性强、特征空间巨大、算法的不断演进,都给能效程序带来了新的挑战。”中科院计算技术研究所高级工程师王磊表示。
中科院计算技术研究所高级工程师王磊
据了解,随着新负载的加入、新硬件设备的接入,结合各行各业在其相应的应用场景以及产品形态方面的诉求,中科院与华为公司建议能效基准测试工具在软件架构的扩展性方面进行重构。首先,新的能效基准应满足新兴场景的能效评测需求,比如设计和开发AI、大数据、智能HPC场景的新型负载,并且需要确保这些新负载的准确性、有效性和长期可演进。其次,新的能效基准应兼容多样性计算架构,包括支持X86服务器、ARM服务器、GPU/NPU加速组件和高性能集群计算,并支持未来更多的计算形态。第三,新的能效基准应该由多方共同参与和建设,确保平台开放,吸引广大客户、研究院所、服务器厂家和应用厂家加入进来。
认证推动产业可持续发展
众所周知,中国是世界上人口最多的国家,人口基数大、新增人口多,虽然资源总量大,但人均占有量少,且资源利用不合理浪费严重,生态环境形势严峻。为此,国家制定了保护环境、节约资源的基本国策。与此同时,为了促进中国经济转型升级,国家提出了“新基建”的发展模式——新基建作为信息社会的基石、数字经济的支撑,对产业链进行改造,可以实现精准感知、在线处理和智能决策,有助于突破产业发展的瓶颈,成为推动经济高质量发展的引擎。马剑涛介绍说,新时代的计算多样性体现在如下两个方面:首先是计算无处不在,已经从传统的通用计算延伸到更多场景,如越来越多的AI计算(人脸识别、车牌识别)、大数据分析(用户画像、智能推荐)、众多的云服务(华为云、市民云、政务云)等;其次是计算架构更加丰富,多样性计算需求带来了多样性的产品架构,例如华为既有传统的X86服务器FusionServer产品,又有基于ARM的TaiShan服务器、AI计算的昇腾产品和高性能计算HPC。
显然,在确保新基建成为实体经济数字化转型发展助推器的同时,节约资源、保护环境,成为企业与各级政府共同的必答题。无疑,能效基准对节约能源的助推效果非常显著,但现有的能效基准难以覆盖这些应用场景和计算架构,“无法度量则无法改进”,建立新的能效基准,其准确性和公正性非常重要。首先,从政府的角度,需要牵引行业重视节能减排,通过把能效认证作为服务器准入的必要条件,如欧盟的CE认证、中国的绿色环保认证等都有对于服务器的能效要求。其次,从行业应用的角度,越来越多的行业客户会考虑TCO成本,而服务器运行和空调制冷所带来的电费是其中的重要组成部分,越来越多的客户都会在在服务器招标时把能效评测的结果作为重要评分项。第三,从服务器厂商的角度,节能减排本身就体现了服务器厂商的企业社会责任,厂商在产品上市宣传中必然会将性能评测结果和能效评测结果作为最重要的两项指标进行市场宣传。2019年7月,华为发布了四大可持续发展战略 ,分别是 “数字包容、安全可信、绿色环保、和谐生态”。其中绿色环保是通过减少碳排放,促进良好的循环经济,实现科技守护自然。在笔者看来,一旦能效基准的新框架得到完善和确立,推广到准入认证等活动中,不仅可以充实行业标准,将绿色环保、节能减排这样的可持续发展理念落实到国家“新基建”的进程中,还可以真正促进计算产业的技术进步,并最终推动整个产业更加绿色环保。正如王磊所说的,“对于能效来说,无法度量则无法改进”,计算行业需要应对新时代的挑战!