数据中心NFV技术可靠性研究

简介:

数据中心NFV是通过使用x86等通用性硬件以及虚拟化技术,来承载很多功能的软件处理,使网络设备功能不再依赖于专用硬件,降低网络设备成本。NFV是网络运营商主推的网络虚拟化技术,这有利于大幅降低网络运营商的设备采购成本。不过,运营商需要的是高可靠性的网络,对网络可靠性要求最高,但看看我们应用了虚拟化技术的表现,2015年十大云计算宕机的收入损失超过了31 Million美元,显然这样的技术无法满足运营商的可靠性要求。运营商当然不愿意放弃自己提出来的NFV,更何况还有SDN跃跃欲试,那该怎么办?本文给出了一些提升NFV可靠性的思路。

数据中心NFV技术可靠性研究

我们需要先来看看部署了NFV 之后,对可靠性的判断准则是否发生了变化。NFV网络中增加了软件控制部分,这样可靠性评估准则要考虑服务停机时间与硬件停机时间的差异,要建立弹性软件的评估方式,这样当硬件检测到故障时,还要通报给NFV,这个过程要有延迟时间,所以需要故障检测和切换技术要比以前更精确,之前故障检测是秒级,现在就需要毫秒级,小于50MS。之前故障切换是秒级,现在就需要微秒级,在几百微秒以内。部署NFV之后,需要用新的工具来解决故障告警、根本原因分析和恢复,这是因为虚拟化技术使得构成服务的部件分散在网络多个不同的地方,检测麻烦不会像观察红灯一样简单,需要软件综合分析。

NFV环境下要提升可靠性,需要具有三个方面的处理机制:一是故障检测预测,通过对数据控制流检查、性能监视、网络设备日志分析、异常检查等等,判断有无发生故障;二是故障诊断定位,一旦发现故障即刻启动故障定位,通过分析确认哪里发生了故障,故障的相关性和优先图;三是故障恢复,根据故障位置,启动故障恢复程序,可以进行业务迁移、冗余备份、数据保护等恢复动作,通过这三步来达到提升NFV可靠性的目的。这样说很简单,实际实现起来是非常难的。就拿故障诊断来说,取决于故障检测的准确性,很多网络故障,不少的网络技术专家分析很久都无法明确原因,现在靠机器来完成,难度更大,要先将人的分析经验输入到机器中进行学习,然后由机器代替人来做处理,只有这样切换才来记得,任何一个环节有人为的介入,处理时间都会被拉长,业务就会受到影响,NFV采用软件自动控制的方法,可以将故障发现、排查和隔离过程控制到毫秒级,达到网络高可靠性的目的。

仅具备这些处理机制还远远不够,NFV环境下故障检测的数据规模大,硬件和软件解耦导致涉及的网络层次更多,很多数据还可能不能反映出故障原因,甚至网络已经故障了这些数据还表现正常,这样就不会触发故障诊断。还有NFV环境下,发生故障传播快和容易相互干扰,易于产生不可预知的故障,这些都会给诊断故障带来很大难度,就算分析出来故障位置,不同的软件可靠性评价准则不同,执行的恢复动作也有差异。有些故障是需要中断业务恢复的,有些故障是做局部微调就可以恢复的,当需要做这种恢复决策时,就算是人为评估都很难把握,更何况将这个决策权交给软件去做,误判一定时有发生。NFV技术也是一种全新的网络技术,新的系统意味着有更多的软件BUG。

为了进一步提升NFV技术的可靠性,还要在多个方面下功夫。运营商网络对可靠性的要求是5个9,而x86的可靠性通常只有2~3个9,所以基于x86实现的NFV可靠性不够高。这时可以考虑虚拟机分散开来,将同一个网元功能的多个虚拟机散布到异址物理设备上,降低单点故障对网络的影响。通过对虚拟机进行热备份,专有设备备份及建立通用备份池对多个网元的虚拟机进行备份的方式,提高网元可靠性。还要在故障检测上下功夫。比如支持黑盒故障的检测,支持未知错误的监测,检测时间要快,还有就是可扩展性好。将这些检测数据获取到了以后,通过机器学习的方式进行检测,将低维数据变化到高维数据。一般通过机器学习的检测有:有监督的学习,无监督学习和半监督学习,它们区别在于是否需要标签训练数据。在NFV技术中一般采用无监督学习方式。通过机器学习就可以引入很多的数理统计技术,来增强分析的准确性,这些技术可以来自基于统计、基于深度,基于密度和聚类等等方面综合分析出来结果。NFV技术可以采用动态自适应快速故障检测技术,如SOM算法、LOF算法、Bayesian Network算法等。对CMS、CNFM等管理系统同样采用备份、带外管理等机制,进一步提升系统可靠性。当通过这些一系列的软件得到故障原因后启动自动告警、自动切换等一系列措施,实现系统故障自愈,还需要支持在网络软硬件解耦后进行端到端的故障定界定位,对各个组件的安全信息比如日志、告警和异常输出等进行智能分析和关联,快速定位或提前预测系统安全隐患。谷歌数据中心的建设思路在可靠性方面考虑良多,在处理宕机这类故障的时候,可以依靠软件迅速地平滑过度,实现任务转移,以最快的速度保证SLA指标。

NFV将是一种革命性的新技术发展趋势,将对网络技术发展带来深远的影响。NFV技术在数据中心,尤其是运营商的数据中心领域应用获得了极大的认可,是运营商一直在推广的网络技术。虽然NFV在可靠性方面还有待提升,它真正走向市场和普及,还会面临众多的问题和挑战,但这并不妨碍很多运营商愿意尝试,NFV技术必将快速走向成熟。


本文作者:佚名

来源:51CTO

相关文章
|
5月前
|
存储 双11 数据中心
数据中心网络关键技术,技术发明一等奖!
近日,阿里云联合清华大学与中国移动申报的“性能可预期的大规模数据中心网络关键技术与应用”项目荣获中国电子学会技术发明一等奖。该项目通过端网融合架构,实现数据中心网络性能的可预期性,在带宽保障、时延控制和故障恢复速度上取得重大突破,显著提升服务质量。成果已应用于阿里云多项产品及重大社会活动中,如巴黎奥运会直播、“双十一”购物节等,展现出国际领先水平。
|
运维 负载均衡 监控
|
机器学习/深度学习 存储 监控
利用机器学习技术优化数据中心能效
【7月更文挑战第36天】在数据中心管理和运营中,能源效率已成为关键性能指标之一。随着能源成本的不断上升以及环境保护意识的增强,开发智能化、自动化的解决方案以降低能耗和提高能源利用率变得尤为重要。本文探讨了如何应用机器学习技术对数据中心的能源消耗进行建模、预测和优化,提出了一个基于机器学习的框架来动态调整资源分配和工作负载管理,以达到节能的目的。通过实验验证,该框架能够有效减少数据中心的能耗,同时保持服务质量。
|
SDN 网络虚拟化 虚拟化
云数据中心中的SDN/NFV应用
【6月更文挑战第9天】计算和存储虚拟化技术在云计算IDC中已基本满足需求,但网络成为新瓶颈,主要问题包括虚拟化环境下的网络配置复杂度增加、拓扑展现困难和无法动态调整资源。
|
存储 大数据 数据处理
探索现代数据中心的冷却技术
【5月更文挑战第25天】 在信息技术迅猛发展的今天,数据中心作为其核心基础设施之一,承载了巨大的数据处理需求。随着服务器密度的增加和计算能力的提升,数据中心的能耗问题尤其是冷却系统的能效问题日益凸显。本文将深入探讨现代数据中心所采用的高效冷却技术,包括液冷解决方案、热管技术和环境自适应控制等,旨在为数据中心的绿色节能提供参考和启示。
|
人工智能 监控 物联网
探索现代数据中心的冷却技术
【5月更文挑战第27天】 在信息技术迅猛发展的今天,数据中心作为信息处理的核心设施,其稳定性和效率至关重要。而随着计算能力的提升,数据中心面临的一个重大挑战便是散热问题。本文将深入探讨现代数据中心冷却技术的进展,包括传统的空气冷却系统、水冷系统,以及新兴的相变材料和热管技术。通过对不同冷却方式的效率、成本及实施难度的分析,旨在为读者提供一份关于数据中心散热优化的参考指南。
178 4
|
机器学习/深度学习 资源调度 监控
利用机器学习技术优化数据中心能效
【5月更文挑战第30天】在数据中心管理和运营中,能源效率的优化是降低运营成本和减少环境影响的关键。本文旨在探讨如何应用机器学习技术来提升数据中心的能源效率。通过对现有数据中心运行数据的深入分析,开发预测性维护模型,以及实施智能资源调度策略,我们可以显著提高数据中心的能效。本研究提出了一种集成机器学习算法的框架,该框架能够实时监控并调整数据中心的能源消耗,确保以最佳性能运行。
|
存储 大数据 数据中心
提升数据中心能效的先进冷却技术
【5月更文挑战第27天】 在信息技术不断进步的今天,数据中心作为计算和存储的核心枢纽,其能源效率已成为评价其可持续性的关键指标。本文将探讨当前数据中心面临的热管理挑战,并展示一系列创新的冷却技术解决方案,旨在提高数据中心的能效,同时确保系统的稳定性和可靠性。通过对比传统冷却方法和新兴技术,我们将分析各种方案的优势、局限性以及实施难度,为数据中心运营者提供科学的决策参考。
|
存储 传感器 人工智能
探索现代数据中心的冷却技术革新
【5月更文挑战第18天】 在数字化时代,数据中心作为信息处理与存储的核心设施,其稳定性和效能至关重要。随着计算需求的激增,数据中心的冷却系统面临着前所未有的挑战。传统的空调冷却方法不仅耗能巨大,而且效率低下。本文将深入探讨现代数据中心冷却技术的最新进展,包括液冷技术、热管应用、环境辅助设计以及智能化管理等方面,旨在提供一种高效、可持续且经济的解决方案,以应对日益增长的冷却需求。
|
机器学习/深度学习 边缘计算 人工智能
利用机器学习优化数据中心能效的研究
【5月更文挑战第21天】 在数据中心运营的成本结构中,能源消耗占据了显著的比例。随着计算需求的不断增长,如何在保持高性能的同时降低能耗成为一大挑战。本文通过探索机器学习技术在数据中心能源管理中的应用,提出了一种新的能效优化框架。该框架采用预测算法动态调整资源分配,并通过仿真实验证明其在降低能耗和提高资源利用率方面的有效性。研究结果不仅对理解数据中心能源消耗模式具有理论意义,也为实际操作提供了可行的节能策略。

热门文章

最新文章