传统负载均衡助力AIOps优化智能运维

简介: 如今AIOps已经比较火热,然而整个行业仍都处于探索的初级阶段,针对预感未来的运维需求需要通过AI进行解决,如何将传统的IT架构改造成智能运维的架构更值得人们思考。本文主要对传统业务的变化、应用交付AD+人工智能AI、AIOps 故障发现与处理等方面的内容做了深入的分析。
摘要:如今AIOps已经比较火热,然而整个行业仍都处于探索的初级阶段,针对预感未来的运维需求需要通过AI进行解决,如何将传统的IT架构改造成智能运维的架构更值得人们思考。本文主要对 传统业务的变化、应用交付AD+人工智能AI、AIOps 故障发现与处理等方面的内容做了深入的分析

本场视频精彩回顾,戳这里!

本场视频PPT下载,戳这里!

演讲嘉宾简介:

邱亮,深信服科技股份有限公司研发部总经理

以下内容根据演讲嘉宾视频分享以及PPT整理而成。

本次的分享主要围绕以下三个方面:

一、数据中心背景
二、负载均衡的应用
三、深信服与阿里合作

一、 数据中心背景
11a079f0098f23d8e1d80dfd58a32030792de3dc
数据中心进行了三代的过程演化,第一代的数据中心以计算为中心,主要把客户原来传统的业务变为电子化业务,提高了办公效率和业务运营效率。第二代的数据中心以网络和应用为中心,随着客户越来越多的核心业务电子化进入数据中心,数据中心的业务成为客户生意的核心,当业务发生中断时,很多客户会出现无法办公、无法做生意的情况,直接给客户带来财产损失。客户对数据中心的需求表现为高可用、高可靠和高性能。第三代的数据中心以用户为中心,客户的很多业务从线下转换到线上。在这种情况下,客户对快速开发、业务弹性、未知业务产生诉求,云计算与大数据应运而生。
  4b3e0f8ecc6a31c52a6d938639bfa81cff1457fb
如图左下方为传统的数据中心,从网络层面看,分为核心层、汇聚层和接入层;从应用层面看,分为web层、app层和DB层。随着云计算的发展,很多资源已经池化,包括存储池化、网络池化和服务池化等,使得数据中心发生了很大的改变。

二、 负载均衡的应用
090f86a3694b39974ff442ea3317214040727b1f 
数据中心的改变不同于技术,过去的投资对客户来说属于历史资产,第一代的数据中心业务电子化后采用单态服务器即可承载,但是这样的架构存在一定缺陷,当单态服务器出现故障时,客户可能采用主备服务器的概念。正常情况下备服务器将处于被浪费状态。同时出现故障时主备服务器的切换也会花费大量时间,接入的连接将会全部中断。备服务器在平时没有业务接入,是否真正实际可用无法确定。在此情况下产生应用交付,负载均衡被架在前方,同时对几台服务器进行负载,既保证这几台服务器平时的可用性,也提升了整个业务系统的健壮性和性能。

随着越来越多的客户核心业务进入数据中心,当单个业务系统的出口出现问题时,例如移动、电信线路断开,链路不稳定使得整个业务系统无法访问,链路负载由此诞生。链路的负载均衡可帮助进行故障时的链路切换,并且保障联通的用户访问资源尽可能从联通的链路返回,避免跨运营商访问,减少时延提高性能。

由于越来越多的业务需要系统可靠性的保障,需要从底层到上层对系统实施很多高可用措施,从而避免任何一个点出现单点故障,例如在核心业务的存储方面,购买两对存储,存储相互之间作为镜像,从而保证一个存储故障时另一个存储可用,在网上接入的存储相关的交换机必须为两个,并相互之间进行堆叠。上层采用多台服务器,应用交付类的产品认为单点是不可靠的,需要支持双机或者集群。随着业务系统越来越多,数据中心管理变得复杂烦乱。
  d1faf53617a4726c945b2e394baaa1f86410db4b
当大量的重要业务交给数据中心时,如果数据中心出现问题会变得非常危险,进而诞生全局负载,建设主备数据中心或者互为主备的数据中心,接着发展为两地三中心或者多户数据中心。面对流量如何在多个数据中心进行合理的调度,如何保证每个数据中心不会过载,当进入双户数据中心时,很多情况下并不是对等的双户,只对部分业务进行双户,使得一个数据中心的规模小于另一个数据中心,不能均匀地进行流量调度,此时会将应用交付应用到全局负载中。
  29198b16eb089d67e8e9c9330959ffbaaae77ae8
如图为典型的抽象数据中心,从接入层中可以看到链路负载,以web区为例,web接受https并进行卸载,卸载需要SSR的安全网关,SSR安全网关需要负载保证自身的稳定,SSR安全网关本身就是负载产品的一项功能,接下来对网站进行WAF清洗,防止产生漏洞,同时WAF设备本身需要保证一定的健壮性,需要进行WAF负载。真实业务中的物理或虚拟服务器同样需要进行负载提高健壮性。图中红色框中都是应用交付产品即负载均衡产品,数据中心中的应用交付产品是天然的所有流量的入口,不管web访问流量还是内部业务系统之间的交互流量,都需要经过负载均衡,作为流量的探针应用交付产品可以抓取流量中的信息,同时作为控制器可以对流量进行个性化的编程,将流量编排的结果进行输出。深信服和阿里巴巴的合作就是基于以上基本原理。

三、 深信服与阿里合作
  aac0f6c9d49719ba5c4cc5c54b6407aa95b65298
深信服从三个方面与阿里巴巴进行合作,第一层面为故障的发现与处理,即为常规的运维阶段。第二层为用户价值的挖掘。第三层为识别风险与阻断攻击。
  8fc03eac6a42638ead9f477292d4257c3fa6d9d3
在故障的发现与处理基本原理中,所有的流量首先经过负载均衡设备,接着发送到服务器,服务器可以把抓取的流量根据已编排的模型全部输出给阿里巴巴的云脑,常规下AI的云脑会将现有的模型输出数据发送给阿里,分担流量的压力,例如每秒新建的连接数、每秒新建的请求数、并发的连接数和吞吐量等,同时通过与阿里云平台的联动,可以获取服务器的CPU、内存、IO时延,从而分担服务器的压力。阿里巴巴的云脑可以获取整个业务的压力情况和业务的服务能力情况,并对数据进行智能分析产生业务指标基线,根据异常点发现问题。云脑的分析周期保证至少40天,其中包含一个月完整的周期数据和四个星期的横向对比,从而了解业务高峰等信息。当出现故障时,告警信息通知到阿里巴巴的云脑,云脑根据数据进行分析,得出故障严重性、服务器预测承担压力等信息供维护人员参考,从而采取合适应对措施。AIOps的应用提供预见未来风险的告警,而不是仅仅罗列大量的告警指标数据。
  8fd46c53078bc539b246a038c8a5ca8bc7ce39de
当建设双户或者多户的数据中心时,应用交付面对故障会尽可能将流量调用给其它数据中心。当建设云计算数据中心时,对于一家公司,所有业务同一时刻不可能都处于高峰期,有些业务处于波谷,出现故障的业务可能处于高峰期,此时数据中心会弹性地扩展更多的虚拟机,将业务流量分发给出现故障的业务,自动地进行恢复处理。
  85216e83437147cb68319ba1873a871d95455458
当服务器出现完全过载时,应用交付产品可以遏制流量的入口,限制并发的连接数,保证已接入的用户能够正常访问。
  047a2b0a7720d0b6d6b3fb881dfcd4b7f154d468
对用户价值的挖掘层面,如图以电商网站为例,通过可编程的方式建立模型、分析协议,通过接口将流量信息全部提取出来,包括用户的IP、账号、接入方式、页面的停留时间、整个url的访问列等。
  5cbae5e706bb3a25b678062f9b3d5f48fdc40f92
提取的用户信息可用于提高客户的访问体验,例如根据客户端的时延、访问量提供系统的优化建议,根据客户端和运营商进行调度,对弱网的用户开启单边加速的功能,保证弱网的用户也能拥有较好的访问体验,降低用户的流失率,提高交易转换率。提取的用户信息也可以用于分析挖掘客户的行为,例如根据用户的喜好推荐商品、分析客户群体的行为习惯等,提高交易转换率。
  f3d7a5781695c191c7bf7f923a16bee0450d5820
当公司整个业务系统的承受压力很强时,认证服务器并不一定很强,此时会遭受黑客的攻击而瞬间瘫痪。应用交付通过访问、认证基线分析出不正常的行为,AI针对每个API访问做出相应的访问限制,进而有效地阻断攻击。
  080a87ec001ee8dc27f8f3ace856d10e6f0dcbd9
深信服与阿里云合作带来的价值表现为三个方面:故障的发现和处理、用户价值的挖掘和智能地识别风险、阻断攻击。

本文由云栖志愿小组丁匀泰整理,编辑百见

相关实践学习
部署高可用架构
本场景主要介绍如何使用云服务器ECS、负载均衡SLB、云数据库RDS和数据传输服务产品来部署多可用区高可用架构。
负载均衡入门与产品使用指南
负载均衡(Server Load Balancer)是对多台云服务器进行流量分发的负载均衡服务,可以通过流量分发扩展应用系统对外的服务能力,通过消除单点故障提升应用系统的可用性。 本课程主要介绍负载均衡的相关技术以及阿里云负载均衡产品的使用方法。
目录
相关文章
|
6天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:AI在故障预测中的应用
【5月更文挑战第31天】本文探讨了人工智能(AI)技术在运维领域的应用,特别是如何通过机器学习和数据分析实现故障预测。文章首先介绍了智能化运维的概念,然后详细阐述了AI技术在故障预测中的具体应用,最后讨论了实施AI故障预测的挑战和未来发展趋势。
|
6天前
|
机器学习/深度学习 人工智能 运维
智能运维:AI在IT基础设施管理中的角色
【5月更文挑战第31天】本文探讨了人工智能(AI)如何革新传统的信息技术(IT)运维领域,通过智能化解决方案提升效率和预防故障。文章将分析AI技术的具体应用,如机器学习、自动化和预测性分析,并讨论这些技术对运维专业人员的影响及未来的发展趋势。
|
6天前
|
机器学习/深度学习 人工智能 运维
智能化运维时代的来临
【5月更文挑战第31天】随着人工智能和机器学习技术的飞速发展,智能化运维已经成为IT行业的新趋势。本文将探讨智能化运维的概念、优势以及在实际应用中的表现,为读者揭示这一新兴领域的巨大潜力。
|
2天前
|
机器学习/深度学习 运维 监控
智能运维:未来IT管理的核心
本文深入探讨了智能运维的概念、优势及其在现代IT管理中的应用。通过分析智能运维如何提高IT系统的效率和稳定性,本文旨在为读者提供对这一新兴领域的全面理解。
|
6天前
|
机器学习/深度学习 人工智能 运维
智能运维:AI在IT管理中的应用与挑战
【5月更文挑战第31天】本文将探讨人工智能(AI)在IT运维领域的应用,分析其带来的效率提升和面临的挑战。文章将详细介绍AI技术如何优化传统的运维流程,提高故障预测的准确性,并自动化常规任务。同时,也将讨论在实施AI解决方案时可能遇到的技术和伦理问题。
|
6天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI在系统管理中的应用与挑战
【5月更文挑战第31天】随着人工智能技术的不断进步,其在运维领域的应用已成为提升效率、预测故障和自动化处理任务的关键。本文将探讨AI如何改变传统运维模式,实现智能化监控、故障预测及自愈能力,同时分析面临的技术挑战与未来发展趋势。
|
6天前
|
机器学习/深度学习 运维 监控
智能运维:未来IT管理的关键
【5月更文挑战第31天】本文将探讨智能运维(AIOps)如何革新传统IT管理,通过机器学习和大数据分析实现故障预测、自动化处理与持续优化。文章将详细分析AIOps的技术框架、实践挑战及其对IT运维人员的影响,旨在为读者提供深入的行业见解和未来趋势的预见。
|
6天前
|
Kubernetes 负载均衡 应用服务中间件
k8s 二进制安装 优化架构之 部署负载均衡,加入master02
k8s 二进制安装 优化架构之 部署负载均衡,加入master02
|
7天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI在现代IT管理中的应用
随着人工智能(AI)技术的飞速发展,其在IT运维领域的应用正逐步改变着传统的运维模式。本文将探讨AI技术如何赋能运维工作,提升效率和准确性,并分析其在实际场景中的运用案例。
|
9天前
|
机器学习/深度学习 人工智能 运维
智能化运维:基于AI的系统异常检测与自动修复策略
【5月更文挑战第29天】 在现代IT基础设施管理领域,智能化运维正逐步成为推动效率和稳定性的关键因素。本文深入探讨了人工智能(AI)技术在系统异常检测和自动化故障修复中的应用,提出了一个集成的智能运维框架。该框架利用机器学习算法分析历史数据,实时监控关键性能指标,并在检测到潜在问题时触发自动化修复流程。通过这一方法,我们旨在降低人工干预的需求,提高系统的可靠性和业务连续性。