数据中心NFV技术可靠性研究-阿里云开发者社区

开发者社区> 知与谁同> 正文

数据中心NFV技术可靠性研究

简介:
+关注继续查看

数据中心NFV是通过使用x86等通用性硬件以及虚拟化技术,来承载很多功能的软件处理,使网络设备功能不再依赖于专用硬件,降低网络设备成本。NFV是网络运营商主推的网络虚拟化技术,这有利于大幅降低网络运营商的设备采购成本。不过,运营商需要的是高可靠性的网络,对网络可靠性要求最高,但看看我们应用了虚拟化技术的表现,2015年十大云计算宕机的收入损失超过了31 Million美元,显然这样的技术无法满足运营商的可靠性要求。运营商当然不愿意放弃自己提出来的NFV,更何况还有SDN跃跃欲试,那该怎么办?本文给出了一些提升NFV可靠性的思路。

数据中心NFV技术可靠性研究

我们需要先来看看部署了NFV 之后,对可靠性的判断准则是否发生了变化。NFV网络中增加了软件控制部分,这样可靠性评估准则要考虑服务停机时间与硬件停机时间的差异,要建立弹性软件的评估方式,这样当硬件检测到故障时,还要通报给NFV,这个过程要有延迟时间,所以需要故障检测和切换技术要比以前更精确,之前故障检测是秒级,现在就需要毫秒级,小于50MS。之前故障切换是秒级,现在就需要微秒级,在几百微秒以内。部署NFV之后,需要用新的工具来解决故障告警、根本原因分析和恢复,这是因为虚拟化技术使得构成服务的部件分散在网络多个不同的地方,检测麻烦不会像观察红灯一样简单,需要软件综合分析。

NFV环境下要提升可靠性,需要具有三个方面的处理机制:一是故障检测预测,通过对数据控制流检查、性能监视、网络设备日志分析、异常检查等等,判断有无发生故障;二是故障诊断定位,一旦发现故障即刻启动故障定位,通过分析确认哪里发生了故障,故障的相关性和优先图;三是故障恢复,根据故障位置,启动故障恢复程序,可以进行业务迁移、冗余备份、数据保护等恢复动作,通过这三步来达到提升NFV可靠性的目的。这样说很简单,实际实现起来是非常难的。就拿故障诊断来说,取决于故障检测的准确性,很多网络故障,不少的网络技术专家分析很久都无法明确原因,现在靠机器来完成,难度更大,要先将人的分析经验输入到机器中进行学习,然后由机器代替人来做处理,只有这样切换才来记得,任何一个环节有人为的介入,处理时间都会被拉长,业务就会受到影响,NFV采用软件自动控制的方法,可以将故障发现、排查和隔离过程控制到毫秒级,达到网络高可靠性的目的。

仅具备这些处理机制还远远不够,NFV环境下故障检测的数据规模大,硬件和软件解耦导致涉及的网络层次更多,很多数据还可能不能反映出故障原因,甚至网络已经故障了这些数据还表现正常,这样就不会触发故障诊断。还有NFV环境下,发生故障传播快和容易相互干扰,易于产生不可预知的故障,这些都会给诊断故障带来很大难度,就算分析出来故障位置,不同的软件可靠性评价准则不同,执行的恢复动作也有差异。有些故障是需要中断业务恢复的,有些故障是做局部微调就可以恢复的,当需要做这种恢复决策时,就算是人为评估都很难把握,更何况将这个决策权交给软件去做,误判一定时有发生。NFV技术也是一种全新的网络技术,新的系统意味着有更多的软件BUG。

为了进一步提升NFV技术的可靠性,还要在多个方面下功夫。运营商网络对可靠性的要求是5个9,而x86的可靠性通常只有2~3个9,所以基于x86实现的NFV可靠性不够高。这时可以考虑虚拟机分散开来,将同一个网元功能的多个虚拟机散布到异址物理设备上,降低单点故障对网络的影响。通过对虚拟机进行热备份,专有设备备份及建立通用备份池对多个网元的虚拟机进行备份的方式,提高网元可靠性。还要在故障检测上下功夫。比如支持黑盒故障的检测,支持未知错误的监测,检测时间要快,还有就是可扩展性好。将这些检测数据获取到了以后,通过机器学习的方式进行检测,将低维数据变化到高维数据。一般通过机器学习的检测有:有监督的学习,无监督学习和半监督学习,它们区别在于是否需要标签训练数据。在NFV技术中一般采用无监督学习方式。通过机器学习就可以引入很多的数理统计技术,来增强分析的准确性,这些技术可以来自基于统计、基于深度,基于密度和聚类等等方面综合分析出来结果。NFV技术可以采用动态自适应快速故障检测技术,如SOM算法、LOF算法、Bayesian Network算法等。对CMS、CNFM等管理系统同样采用备份、带外管理等机制,进一步提升系统可靠性。当通过这些一系列的软件得到故障原因后启动自动告警、自动切换等一系列措施,实现系统故障自愈,还需要支持在网络软硬件解耦后进行端到端的故障定界定位,对各个组件的安全信息比如日志、告警和异常输出等进行智能分析和关联,快速定位或提前预测系统安全隐患。谷歌数据中心的建设思路在可靠性方面考虑良多,在处理宕机这类故障的时候,可以依靠软件迅速地平滑过度,实现任务转移,以最快的速度保证SLA指标。

NFV将是一种革命性的新技术发展趋势,将对网络技术发展带来深远的影响。NFV技术在数据中心,尤其是运营商的数据中心领域应用获得了极大的认可,是运营商一直在推广的网络技术。虽然NFV在可靠性方面还有待提升,它真正走向市场和普及,还会面临众多的问题和挑战,但这并不妨碍很多运营商愿意尝试,NFV技术必将快速走向成熟。


本文作者:佚名

来源:51CTO

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
新版共享虚机上线通知,稳定99.999%的服务、数据可靠性,8线机房,1000M带宽共享
为了通过合作伙伴让更多的用户体验到阿里云稳定,安全的共享虚机产品,让更多的用户体验到云计算带来的普惠科技价值,佳速互联阿里云针对建站合作伙伴推出三款安全稳定高性价比的合作伙伴专属共享虚机主机产品,渠道基础版,渠道专业版以及渠道高级版,具体信息如下: 新版共享虚机上线通知,稳定99.
2030 0
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
10017 0
OB有问必答 | OceanBase如何保证数据可靠性?
“OB有问必答”是OceanBase最新上线的互动类栏目,每周围绕一个关于分布式数据库的议题为大家详细展开解答,今天我们围绕数据可靠性话题讨论,如果你有任何感兴趣的问题,欢迎留言,我们会每周选取一个问题为大家详细解答
463 0
企业级性能、安全可靠 阿里云发布企业级大数据平台开发者版
作为可以承载EB级的数据存储能力,百PB级的单日计算能力的企业级计算平台,积极的在“智能+”重要战略中,释放技术红利,普惠大数据生态,帮助企业和个人开发者深化大数据、人工智能等研发应用,拓展“智能+”为更多开发者提供资源并进行赋能。
1816 0
阿里云服务器ECS远程登录用户名密码查询方法
阿里云服务器ECS远程连接登录输入用户名和密码,阿里云没有默认密码,如果购买时没设置需要先重置实例密码,Windows用户名是administrator,Linux账号是root,阿小云来详细说下阿里云服务器远程登录连接用户名和密码查询方法
11587 0
在「不可靠」硬件上,分布式数据库如何保证数据可靠性和服务可用性?
“数据不能丢,服务不能停”,OceanBase作为一款成熟的企业级分布式数据库,基于普通PC服务器,就能够做到传统高端硬件环境下的数据可靠性和服务可用性,而且还能做得更好。
939 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,阿里云优惠总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系.
13818 0
阿里云ECS云服务器初始化设置教程方法
阿里云ECS云服务器初始化是指将云服务器系统恢复到最初状态的过程,阿里云的服务器初始化是通过更换系统盘来实现的,是免费的,阿里云百科网分享服务器初始化教程: 服务器初始化教程方法 本文的服务器初始化是指将ECS云服务器系统恢复到最初状态,服务器中的数据也会被清空,所以初始化之前一定要先备份好。
7344 0
+关注
10077
文章
2994
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载