机器学习工具在数据中心的应用与发展

简介:

在互联网诞生之初,数据中心规模很小并且很简单。一个大型电子商务服务数据中心仅用几个19英寸机架来部署所需的服务器,存储器,以及网络设备。如今,超大型数据中心成千上万的硬件设备部署在数千个机架上。随着数据中心设计的变化,这些大型数据中心或建在靠近大型人口中心,或建在电力廉价的偏远的地区。

随着数据中心运营的自动化的发展,像AWS或微软 Azure这样的公共云供应商所雇用的高级数据中心工程师越来越少,数量通常比安全人员和普通技术工人更少。更少的人员管理更多服务器,这意味着监控数据中心电力和冷却基础架构需要更多依赖传感器,这些现在都被称为物联网硬件。这些硬件有助于在一定程度上识别问题,但是在很多情况下,传感器并不能代替经验丰富的设施工程师。例如,通过声音辨别设备运行的情况,通过声音还可以了解哪个个风扇将出现故障或通过水滴的声音来定位泄漏的地方等等。

谷歌公司为机器学习而定制的采用张量处理器(TPU)的服务器机架

谷歌公司为机器学习而定制的采用张量处理器(TPU)的服务器机架

数据中心管理人员需要更多的传感器来监控现代数据中心基础设施,新一代应用程序旨在通过将机器学习应用于物联网传感器网络来来填补这一空白。这个想法是将经验转变成规则来帮助传感器辨析声音和影像,例如,为数据中心增加一个新的自动化管理层,可以预测和防止数据中心基础架构的故障。 451 Research公司分析师Rhonda Ascierto表示:“快速的恢复时间和有效的容量配置也可以降低数据中心风险。”

结合DCIM和多样性的数据

第一步是利用数据中心基础设施管理或DCIM软件中的预测分析。以位于加利福尼亚州奥克兰的一家名为Vigilent公司的软件为例。“控制系统基于机器学习软件,用于确定变量之间的关系,如机架温度,冷却单元设置,冷却能力,冷却冗余,功耗和故障风险。它通过打开和关闭各相关单元来调节冷却单元,包括变频器(VFD),上下调节变频器,以及调节单元的温度设定值。”Ascierto说。它使用无线温度传感器,并预测如果操作员采取某些措施会发生什么,例如关闭冷却单元或增加设定点温度。

另一个例子是英国Oneserve Infinite公司,该公司将传感器与多种数据点相结合,例如使用天气条件,以提供称之为“预测性现场服务管理”的Exeter.其目的是预测维护要求,避免故障停机,并将停机时间降至最低。 Oneserve公司首席执行官Chris Proctor表示,通过应用这些技术,可以同时处理战略规划和采购。“数据中心将能够更准确,有效地管理资产和资源。”(据悉这种功能尚未在任何数据中心中使用。)

Oneserve公司更关注的是维护问题,跟踪了解过去维护中的问题,允许用户详细地说明每次出现问题的地方。在现在,这依然是一种非常费时费力的人工操作方法,但是将来工作人员会利用这种数据来训练机器学习系统。

挖掘人类的知识

将传感器数据与运维经验相结合的例子是圣荷西的LitBit公司。根据该公司创始人兼首席执行官Scott Noteboom的说法,他们曾经为雅虎和苹果公司提供数据中心战略,LitBit公司的数据中心人工智能或DAC(数字模拟转换器),允许运营商对机器进行培训和调整,向工作人员学习可以获得响应数据中心的事件的能力,从而提醒操作人员或最终自动执行操作。LitBit公司方法的关键是采用一种辅助学习形式,当系统检测到新的异常事件时,系统会向操作人员发出警报,然后运营商将来制定一套对这些事件做出反应的规则。为了收集数据,LitBit公司有一个移动应用程序,可以接受视频,然后将其转换成数千个图像进行培训。

这家初创公司提供了一个托管云服务,可以利用许多用户的匿名数据来构建更复杂和更准确的模型。一些客户会将他们的训练模式进行保密,而另外一些客户可能会将其作为额外的收入来源对外出售。正如Ascierto所指出的那样,“数据中心管理数据的价值在大规模聚合和分析时会倍增。通过将算法应用于许多客户聚集的大型数据集,包括不同类型的数据中心和不同的位置,供应商可以预测设备何时出现故障,以及何时会出现冷却阈值。

当具有知识经验的操作人员不在身边时,一些隐含的知识可以帮助系统在操作中来识别问题并做出更快的反应。数据中心人工智能可能不会完全替代数据中心工作人员,但它可以不断地增强技能帮助运维人员解决问题。

这个领域还不成熟,但发展速度很快。对传感器进行机器学习正在迅速发展,并被广泛应用于各行各业。微软研究部门一直在与Sierra 系统公司合作,开发基于机器学习的油气管道缺陷的音频分析,利用其认知工具包来帮助对出现的异常进行分类。

基于人工智能的数据中心管理服务是新兴技术,目前还在发展中,还需要进行大量的培训。 Ascierto指出,企业的DCIM软件可能需要更多的传感器。 “如果企业想利用人工智能进行端到端冷水机组到机架的决策,那么其设备以及环境传感器和电气仪表将需要安装声学和振动传感器。如果目标是优化和自动化冷却单元的设定点温度,则可能每个机架(顶部,中间,底部)需要多个环境传感器。

人工智能系统正式交付使用还将需要一定的时间,就像数据中心招募的新的工作人员一样,不过类似的机器学习工具终将可以真正的帮助您运营数据中心。


本文作者:李超  

来源:51CTO

目录
相关文章
|
2月前
|
机器学习/深度学习 人工智能 物联网
通义灵码在人工智能与机器学习领域的应用
通义灵码不仅在物联网领域表现出色,还在人工智能、机器学习、金融、医疗和教育等领域展现出广泛应用前景。本文探讨了其在这些领域的具体应用,如模型训练、风险评估、医疗影像诊断等,并总结了其提高开发效率、降低门槛、促进合作和推动创新的优势。
通义灵码在人工智能与机器学习领域的应用
|
2月前
|
机器学习/深度学习 传感器 自动驾驶
探索机器学习在图像识别中的创新应用
本文深入分析了机器学习技术在图像识别领域的最新进展,探讨了深度学习算法如何推动图像处理技术的突破。通过具体案例分析,揭示了机器学习模型在提高图像识别准确率、效率及应用场景拓展方面的潜力。文章旨在为读者提供一个全面的视角,了解当前机器学习在图像识别领域的创新应用和未来发展趋势。
|
16天前
|
机器学习/深度学习 监控 算法
机器学习在图像识别中的应用:解锁视觉世界的钥匙
机器学习在图像识别中的应用:解锁视觉世界的钥匙
238 95
|
1天前
|
机器学习/深度学习 数据采集 算法
机器学习在生物信息学中的创新应用:解锁生物数据的奥秘
机器学习在生物信息学中的创新应用:解锁生物数据的奥秘
59 36
|
24天前
|
机器学习/深度学习 数据采集 运维
机器学习在运维中的实时分析应用:新时代的智能运维
机器学习在运维中的实时分析应用:新时代的智能运维
75 12
|
6天前
|
人工智能 运维 API
PAI企业级能力升级:应用系统构建、高效资源管理、AI治理
PAI平台针对企业用户在AI应用中的复杂需求,提供了全面的企业级能力。涵盖权限管理、资源分配、任务调度与资产管理等模块,确保高效利用AI资源。通过API和SDK支持定制化开发,满足不同企业的特殊需求。典型案例中,某顶尖高校基于PAI构建了融合AI与HPC的科研计算平台,实现了作业、运营及运维三大中心的高效管理,成功服务于校内外多个场景。
|
1月前
|
运维 监控 持续交付
自动化运维在现代数据中心的应用与实践####
本文探讨了自动化运维技术在现代数据中心中的应用现状与实践案例,分析了其如何提升运维效率、降低成本并增强系统稳定性。通过具体实例,展示了自动化工具如Ansible、Puppet及Docker在环境配置、软件部署、故障恢复等方面的实际应用效果,为读者提供了一套可参考的实施框架。 ####
|
1月前
|
机器学习/深度学习 人工智能 运维
智能化运维在现代数据中心的应用与挑战####
本文深入探讨了智能化运维(AIOps)技术在现代数据中心管理中的实际应用,分析了其带来的效率提升、成本节约及潜在风险。通过具体案例,阐述了智能监控、自动化故障排查、容量规划等关键功能如何助力企业实现高效稳定的IT环境。同时,文章也指出了实施过程中面临的数据隐私、技术整合及人才短缺等挑战,并提出了相应的解决策略。 --- ####
52 1
|
1月前
|
机器学习/深度学习 数据采集 人工智能
智能化运维在现代数据中心的应用与挑战####
本文深入探讨了智能化运维(AIOps)技术如何革新现代数据中心的运维管理,通过集成人工智能、大数据分析及自动化工具,显著提升系统稳定性、效率和响应速度。文章首先概述了AIOps的核心概念与技术框架,随后详细分析了其在故障预测、异常检测、容量规划及事件响应等方面的应用实例,最后探讨了实施过程中面临的数据质量、技能匹配及安全性等挑战,并提出了相应的应对策略。本研究旨在为数据中心管理者提供关于采纳和优化AIOps实践的洞见,以期推动行业向更高效、智能的运维模式转型。 ####
|
2月前
|
机器学习/深度学习 Python
机器学习中评估模型性能的重要工具——混淆矩阵和ROC曲线。混淆矩阵通过真正例、假正例等指标展示模型预测情况
本文介绍了机器学习中评估模型性能的重要工具——混淆矩阵和ROC曲线。混淆矩阵通过真正例、假正例等指标展示模型预测情况,而ROC曲线则通过假正率和真正率评估二分类模型性能。文章还提供了Python中的具体实现示例,展示了如何计算和使用这两种工具来评估模型。
72 8
下一篇
开通oss服务