IDC运营的大数据分析与DCIM

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 当我们还没有理解互联网的时候,移动互联来了,当我们还没有理解移动互联的时候,大数据和云计算又来了。

当我们还没有理解互联网的时候,移动互联来了,当我们还没有理解移动互联的时候,大数据和云计算又来了。不知不觉,成百上千栋数据中心拔地而起,海量的数据已悄然产生,并潜移默化地影响着我们生活中的点点滴滴。

当我们出行时,参考高德地图的交通数据;当我们餐饮时,打开大众点评查看评论数据;当我们购物时,淘宝网的消费数据分析会推送符合我们倾向的商品。生活中的小事尚且需要大数据的分析,IDC运营这样一件严肃而又严谨的工作,同样需要大数据分析。

1. IDC运营需要大数据分析

所谓IDC,就是为电子信息设备提供运行环境的场所,该场所可以安装数据处理、数据传输和网络通讯等多种IT设备,同时还需要安装为IT设备服务的电力、空调、传输管路等相关系统及设备,通过合理的IT架构,实现信息的处理、传输、储存、交换、管理等功能。完善的管理方式和良好的IT环境就是要保障IT设备的正常有效运转、保障业务的顺畅进行和服务的及时提供。
image.png

一个典型的IDC如下图1-1:

图1-1 典型IDC组成图

一个典型的IDC包含哪些元素呢?从业务层面,有软件应用、虚拟化、服务器、存储、异地灾备;从风、火、水、电、光层面,有通风、消防、供水、制冷、空调、配电、布线、通信、两路市电、冗余电源;从运维层面,有搬迁、物流、安防、巡检、反恐怖活动、防自然灾害;从成本层面,有设计成本、建造成本、运行成本、维护成本。可以说,IDC是一个复杂的综合体系。一个如此庞杂的体系自然需要科学的管理。可以这样理解“管理”二字,“管”意味着决策与执行,“理”意味着整合与分析数据。“理”是手段,“理”的功能为采集数据;“管”是目的,“管”的功能为根据“理”的数据分析结果进行决策和执行,进行运维操作。

既然IDC的运营是一种管理,管理需要数据,那么如何获取IDC运营数据呢?如图1-2,IDC的电力监控系统会得到到柴油发电机、燃油、市电、变压器、UPS、电池、高压直流、开关状态、PDU电量等系列数据;制冷空调的监控系统会得到冷机、冷塔、水泵、板换、精密空调、冷热通道温度、自然冷却的运行时间、PUE、WUE等系列数据;消防与安防监控会得到人流、物流等系列数据;ITSM系统得到服务器上架、流程进度等数据。

image.png

图1-2 获取数据的方式与途径

这些数据有的进行了分析,形成了报表,如图1-2中左一图片所示的设备电量波动趋势,左二图片的自然冷却分析,但是大量的数据还停留在初级采集阶段,并未形成综合分析与报表。例如,冷冻水泵的变频器发生故障,这样的故障可能会直接影响冷机运行,但报警信息只显示在电力监控界面上,不对制冷运维人员开放,则导致制冷运维人员不能在第一时间得到通知,无法快速响应故障。又如,制冷系统中的蓄冷罐温度异常可能由冷机故障引起,也可能由冷机专用变压器或开关故障引起,此时只分析蓄冷罐的温度数据、只分析冷机的状态数据是不够的,还需要跨系统分析电气系统的冷机配电开关和变压器状态的数据库。

因此,IDC运营迫切需要获取到大数据,需要数据的跨系统整合、关联、统计与挖掘,需要大数据分析。

2. DCIM是进行大数据分析的有效工具

为了顺应IDC运营跨系统数据关联、分析的需要,DCIM(Data Center Infrastructure Management数据中心基础设施管理)是再好不过的工具了。

DCIM概念起源于国外,不同的机构对DCIM也有不同的定义,但基本共同的观点是DCIM工具可以架起一座沟通关键基础设施和IT设备之间的桥梁,从而帮助数据中心管理人员更高效的运营数据中心。

Gartner对DCIM的定义是:Data center infrastructure management (DCIM) tools monitor, measure, manage and/or control data center utilization and energy consumption of all IT-related equipment (such as servers, storage and network switches) and facility infrastructure components (such as power distribution units [PDUs] and computer room air conditioners [CRACs]).数据中心基础设施管理(DCIM)工具监控、管理和控制数据中心所有IT相关设备(比如服务器、存储和交换机)和关键基础设施相关设备(比如PDU和精密空调)的使用情况以及能耗水平。

451 Group对DCIM的定义是:A datacenter infrastructure management system collects and manages information about a datacenter’s assets, resource use and operational status. This information is then distributed, integrated, analyzed and applied in ways that help managers meet business and service-oriented goals and optimize the datacenter’s performance. 数据中心基础设施系统通过持续收集和管理数据中心的资产、资源以及各种设备的运行状态,然后通过分析、整合提炼成有用的数据,从而帮助数据中心管理者管理数据中心并优化性能。

从海外资料对DCIM的理解可以看到,DCIM定义中的Infrastructure是指支撑整个数据中心IT系统运行的所有物理层设施,包括供配电、空调环境、安全防护、综合布线、消防等场地基础设施与服务器、存储、网络与安全等IT硬件基础设施。

事实上,对于基础设施,业内比较通用的认知是:

基础设施(infrastructure)

=场地基础设施(site facility infrastructure)+ IT基础设施(IT infrastructure)

其中场地基础设施(site facility infrastructure),通常也简称facility,就是常说的风火水电等机电设备。DCIM的主要价值就是在于打通场地基础设施和IT基础设施(硬件层)的组织和信息断层、打通场地基础设施各子系统的数据库,采用统一的平台管理场地基础设施如UPS、空调以及IT基础设施如服务器,并通过数据的分析和聚合,最大化数据中心的运营效率以保证数据中心的可用性和业务的连续性。

3. DCIM能够为IDC运营带来的价值

3.1 可靠运维

IDC运营的第一要务是保证7×24×365不间断可靠运行,IDC承载的业务的重要性要求故障时须即时处理,以减少事故历时、降低故障带来的损失和风险。设备的故障是IDC运营需要重点关注的一个问题,是否等到设备故障告警,运维人员才去关注呢?是否可以做到预测故障呢?DCIM可对故障期间的数据进行记录、整理、统计、分析,寻找故障发生的诱因和共性,探讨缩短故障历时的途径;DCIM的数据分析结果可帮助运维人员提前诊断哪些设备处于亚健康的状态,进而可预测故障、提醒运维人员提前排查故障,降低风险。

image.png

表3-1 关键设备平均无故障时间与故障率

如表3-1,DCIM可汇总、统计来自电力监控、制冷监控子系统的数据库,整理关键设备如冷机、冷塔、水泵、柴发、开关、变压器、UPS等的平均维护时间、平均无故障时间和每月累计故障率,如果数据分析显示某一组电池的月故障率突然高于平均值,则有理由怀疑这组电池近期可能出现故障,这就可以提醒IDC运维人员提前对这组电池进行维护和更换,从而避免故障的发生,减少宕机的可能。

image.png

图3-2 海恩法则

论及运维的可靠性,图3-2是著名的海恩法则,它的含义是一次严重的事故之前可能有1000起事故隐患、300起未遂先兆、29次轻微事故,DCIM的横向数据分析可以帮助运维人员在隐患阶段排除故障的可能。如制冷空调系统的环境温度监测,当温度超出限定值时,系统告警,但是等到系统告警往往为时过晚,局部热点极易导致宕机;然而电气系统的PDU电量监测可预警告空调的局部热点,例如某列机柜PDU电量持续徘徊在高位,则运维人员可以预判附近可能出现局部热点,并提前加速周边空调的EC风机,从而避免局部热点的出现,减少宕机风险。

运维的可靠性常常需要多个子系统联合保障,例如市电断电、导致冷机重新启动,为了保障冷机重启的时间段内冷量可持续供给,数据中心制冷系统常常配置应急冷源(如蓄冷罐),暖通制冷监控系统(BMS)须响应紧急情况,自动控制应急冷源(如水蓄冷罐)放冷,并能实现再次充冷。BMS须准确感知电气系统中冷机的配电状况,并在冷机掉电或其他紧急工况时,平稳切换至应急冷源供冷,保障服务器的冷量持续供应;在应急冷源放冷完毕时,BMS须自动切换应急冷源至再次充冷。DCIM可横向整合电力监控、暖通制冷监控的数据,实现数据的互联互通,以免各子系统监控自成体系、执行子系统命令时影响到其他系统的安全运行,从而影响整个IT环境的稳定可靠。

image.png

图3-3服务器平均电量数据分析

DCIM横向数据库分析可以帮助运维人员筛选僵尸服务器,对连续监测的IT电量数据进行汇总、分析和比较,如图3-3,如某IDC大部分机柜服务器运行在5kW左右的平均值,个别机柜服务器电量维持在2kW左右,可想而知,这样的服务器对计算资源的贡献非常有限,极有可能是僵尸服务器。运维人员可根据电量提示优化服务器的配置及软件架构,或移除服务器另作他用。可见,DCIM数据分析可帮助IDC运维人员优化IT资源配置。

3.2 绿色节能

服务器在飞快地运算着,电表的数字也在飞快地跳着,IDC输出计算能力的同时也在消耗大量能源,有数据表明IDC的耗电量占全国总耗电量的20%左右,绿色节能是IDC运营的重要课题。DCIM的横向数据分析可以帮助IDC运营优化节能。例如,某IDC的设计IT负荷为5000kW,采用冷却塔串联板换的水侧节能,如图3-4,满载时湿球温度4℃开始自然冷却。

image.png

图3-4 冷却塔串联板换的水侧节能

然而服务器往往是分批上架的,IDC也是分期部署的,如果一期IT负载率低于某设定值如3000kW,则DCIM可建议运维人员设定湿球温度6℃或7℃开始自然冷却,从而延长自然冷却的时间,缩短电制冷的运行时间,达到节省制冷系统电耗、降低PUE、节能运行的目的。

IDC的规划、设计、建造都是按照IT满载做的,实际运行往往是变工况运行,DCIM综合数据分析可根据运行动态数据分析改变设定值。例如最初的空调送风温度设定为18℃,冷通道温度上限设定为22℃,运行一段时间后,系统监测到机房冷通道的温度普遍持续低于22℃,则可以提醒运维人员尝试提高送风温度设定值为20℃,甚至冷水机组的供水温度也可提高,冷冻水供水温度每提高1℃,冷机效率提升2~3%,自然冷却的运行时间也可相应延长,如此可实现节省制冷系统电耗、节能运行的目的。

3.3 决策依据

DCIM通过对运维数据的动态收集、分析以及监测,也可以帮助IDC运维人员在下一个生产环节提供输入。

image.png

图3-5 Space Power Cooling(SPC)管理

IDC有SPC的管理三元素,S指空间、P指供电、C指的就是冷却。DCIM系统收集到U位的总数据,已占用U位的数据,两者相减就可得到可用的U位空间;电力、制冷也是如此,得到可用电力、可用冷量;如图3-5,通过SPC三个数据库的联合分析,运维人员就可以确定上多少台服务器,在哪些U位空间进行摆放。可见,DCIM综合数据分析可帮助IDC运营工作科学决策。

可以举的例子还有很多,例如,某企业某类业务的IDC,在一期规划设计采用百分之百的满负荷进行基础设施的容量规划,以及平面设定。然而DCIM常年的运行数据表明,此类业务平均运行在70%左右的负荷,峰值也不会超过80%,那么,在同样业务的下一个IDC规划中,就可以把IT的负载率设定为80%,则可以缩减基础设施的容量、节省基础设施初投资。可见,DCIM可帮助IDC规划优化配置,节约成本。

又例如,某企业某类业务在某一线城市采用双路市电加柴油发电机的冗余方案,但DCIM多年的运行数据表明市电从未断电,电网可靠性达到5个9,甚至更高,则在下一个IDC的规划中可考虑优化架构为一路市电加柴油发电机的方案。可见,DCIM可帮助IDC规划优化设计方案。

从以上分析可以看出,大规模IDC存在多套监控管理子系统,如电力监控(EPMS)、暖通制冷监控(BMS)、消防与安防监控、ITSM等,每个子系统都有自己独立的数据采集、统计、分析和执行等装置,完成某项独立的功能;但是IDC的整体运营需要这些子系统的数据横向整合、纵向挖掘、综合分析;数据不进行分析,就只是数据,无法对运营产生价值;DCIM对各子系统的数据进行筛选、整合并加以关联、挖掘、分析,进而根据大数据分析的结果提出运维建议、优化运行能效、降低故障风险、提升IDC运营效率,并为运维人员提供科学决策的依据。

4 DCIM大数据分析的前景展望

image.png

图4-1 DCIM的大数据分析的多种可能

DCIM的大数据分析可以做的事情非常多,如图4-1,可以实现成本管理、规划管理、工单管理、容量管理、可靠性管理、能效管理。如图4-2,更可以关联故障与应急预案实现告警管理,可以关联资产与容量管理实现变更管理,可以汇总技术规范与运维手册实现知识库管理,可以供应商管理与二维码对应的方式实现供应商管理,可以从能效管理进一步提升为计费管理,可以把巡检的主动式运维流程化变成工单管理。

image.png

图4-2 DCIM的大数据分析帮助IDC运营的方式

5 小结

大数据分析是IDC运营的核心竞争力,如图5-1

image.png

图5-1 大数据分析的核心价值

它可以帮助IDC运营增能效、减成本、助运维、轻风险,是科学管理运营IDC的必杀技。IDC运营即将进入大数据分析的时代,DCIM是进行大数据挖掘与分析不可或缺的工具,亟需针对运维需求的深度开发和有效运用。

参考文献

[1] Market Trends: Total Addressable DCIM Market Will Reach $1.7 Billion by 2016. Federico De Silva. Gartner 2012

[2] Datacenter Barriers. IDC Global DCIM Survey. 2012

[3] Operational sustainability and its impact on data center uptime performance, investment value, energy efficiency and resiliency. Vince Renaud.etc. UPTIME

[4] DCmarketScape: Worldwide Datacenter Infrastructure Management 2013 Vendor Analysis. IDC 2013

[5] DCIM market size and forecast: onward and upward, 451 Group, 2012

[6] Thermal Guidelines for Data Processing Enviroments(ASHRAE TC9.9)主编机构:ASHRAE Technical Committee ,出版社:American Society of Heating, Refrigerating and Air-Conditioning Engineers, Inc.,出版地:USA,2011出版

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
23天前
|
存储 大数据 测试技术
用于大数据分析的数据存储格式:Parquet、Avro 和 ORC 的性能和成本影响
在大数据环境中,数据存储格式直接影响查询性能和成本。本文探讨了 Parquet、Avro 和 ORC 三种格式在 Google Cloud Platform (GCP) 上的表现。Parquet 和 ORC 作为列式存储格式,在压缩和读取效率方面表现优异,尤其适合分析工作负载;Avro 则适用于需要快速写入和架构演化的场景。通过对不同查询类型(如 SELECT、过滤、聚合和联接)的基准测试,本文提供了在各种使用案例中选择最优存储格式的建议。研究结果显示,Parquet 和 ORC 在读取密集型任务中更高效,而 Avro 更适合写入密集型任务。正确选择存储格式有助于显著降低成本并提升查询性能。
123 1
用于大数据分析的数据存储格式:Parquet、Avro 和 ORC 的性能和成本影响
|
2月前
|
分布式计算 Hadoop 大数据
Jupyter 在大数据分析中的角色
【8月更文第29天】Jupyter Notebook 提供了一个交互式的开发环境,它不仅适用于 Python 编程语言,还能够支持其他语言,包括 Scala 和 R 等。这种多语言的支持使得 Jupyter 成为大数据分析领域中非常有价值的工具,特别是在与 Apache Spark 和 Hadoop 等大数据框架集成方面。本文将探讨 Jupyter 如何支持这些大数据框架进行高效的数据处理和分析,并提供具体的代码示例。
49 0
|
7天前
|
JSON 数据可视化 数据挖掘
Polars函数合集大全:大数据分析的新利器
Polars函数合集大全:大数据分析的新利器
15 1
|
20天前
|
存储 分布式计算 Hadoop
大数据分析的工具
大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源:传感器,气候信息,公开的信息,如杂志,报纸,文章。大数据产生的其他例子包括购买交易记录,网络日志,病历,军事监控,视频和图像档案,及大型电子商务。
27 8
|
1月前
|
存储 大数据 数据挖掘
【数据新纪元】Apache Doris:重塑实时分析性能,解锁大数据处理新速度,引爆数据价值潜能!
【9月更文挑战第5天】Apache Doris以其卓越的性能、灵活的架构和高效的数据处理能力,正在重塑实时分析的性能极限,解锁大数据处理的新速度,引爆数据价值的无限潜能。在未来的发展中,我们有理由相信Apache Doris将继续引领数据处理的潮流,为企业提供更快速、更准确、更智能的数据洞察和决策支持。让我们携手并进,共同探索数据新纪元的无限可能!
82 11
|
2月前
|
分布式计算 数据可视化 大数据
Vaex :突破pandas,快速分析100GB大数据集
Vaex :突破pandas,快速分析100GB大数据集
|
2月前
|
大数据 机器人 数据挖掘
这个云ETL工具配合Python轻松实现大数据集分析,附案例
这个云ETL工具配合Python轻松实现大数据集分析,附案例
|
2月前
|
数据采集 人工智能 安全
AI大数据处理与分析实战--体育问卷分析
本文是关于使用AI进行大数据处理与分析的实战案例,详细记录了对深圳市义务教育阶段学校“每天一节体育课”网络问卷的分析过程,包括数据概览、交互Prompt、代码处理、年级和学校维度的深入分析,以及通过AI工具辅助得出的分析结果和结论。
|
2月前
|
消息中间件 前端开发 安全
第三方数据平台技术选型分析
这篇文章分析了第三方数据平台的技术选型,涵盖了移动统计平台、自助分析平台和BI平台的不同代表厂商,讨论了它们的数据源、使用要求和适用场景。
40 2
|
2月前
|
存储 分布式计算 数据处理
MaxCompute 的成本效益分析与优化策略
【8月更文第31天】随着云计算技术的发展,越来越多的企业选择将数据处理和分析任务迁移到云端。阿里云的 MaxCompute 是一款专为海量数据设计的大规模数据仓库平台,它不仅提供了强大的数据处理能力,还简化了数据管理的工作流程。然而,在享受这些便利的同时,企业也需要考虑如何有效地控制成本,确保资源得到最优利用。本文将探讨如何评估 MaxCompute 的使用成本,并提出一些优化策略以降低费用,提高资源利用率。
59 0

热门文章

最新文章

下一篇
无影云桌面