传统负载均衡助力AIOps优化智能运维

本文涉及的产品
传统型负载均衡 CLB,每月750个小时 15LCU
网络型负载均衡 NLB,每月750个小时 15LCU
应用型负载均衡 ALB,每月750个小时 15LCU
简介: 如今AIOps已经比较火热,然而整个行业仍都处于探索的初级阶段,针对预感未来的运维需求需要通过AI进行解决,如何将传统的IT架构改造成智能运维的架构更值得人们思考。本文主要对传统业务的变化、应用交付AD+人工智能AI、AIOps 故障发现与处理等方面的内容做了深入的分析。
摘要:如今AIOps已经比较火热,然而整个行业仍都处于探索的初级阶段,针对预感未来的运维需求需要通过AI进行解决,如何将传统的IT架构改造成智能运维的架构更值得人们思考。本文主要对 传统业务的变化、应用交付AD+人工智能AI、AIOps 故障发现与处理等方面的内容做了深入的分析

本场视频精彩回顾,戳这里!

本场视频PPT下载,戳这里!

演讲嘉宾简介:

邱亮,深信服科技股份有限公司研发部总经理

以下内容根据演讲嘉宾视频分享以及PPT整理而成。

本次的分享主要围绕以下三个方面:

一、数据中心背景
二、负载均衡的应用
三、深信服与阿里合作

一、 数据中心背景
11a079f0098f23d8e1d80dfd58a32030792de3dc
数据中心进行了三代的过程演化,第一代的数据中心以计算为中心,主要把客户原来传统的业务变为电子化业务,提高了办公效率和业务运营效率。第二代的数据中心以网络和应用为中心,随着客户越来越多的核心业务电子化进入数据中心,数据中心的业务成为客户生意的核心,当业务发生中断时,很多客户会出现无法办公、无法做生意的情况,直接给客户带来财产损失。客户对数据中心的需求表现为高可用、高可靠和高性能。第三代的数据中心以用户为中心,客户的很多业务从线下转换到线上。在这种情况下,客户对快速开发、业务弹性、未知业务产生诉求,云计算与大数据应运而生。
  4b3e0f8ecc6a31c52a6d938639bfa81cff1457fb
如图左下方为传统的数据中心,从网络层面看,分为核心层、汇聚层和接入层;从应用层面看,分为web层、app层和DB层。随着云计算的发展,很多资源已经池化,包括存储池化、网络池化和服务池化等,使得数据中心发生了很大的改变。

二、 负载均衡的应用
090f86a3694b39974ff442ea3317214040727b1f 
数据中心的改变不同于技术,过去的投资对客户来说属于历史资产,第一代的数据中心业务电子化后采用单态服务器即可承载,但是这样的架构存在一定缺陷,当单态服务器出现故障时,客户可能采用主备服务器的概念。正常情况下备服务器将处于被浪费状态。同时出现故障时主备服务器的切换也会花费大量时间,接入的连接将会全部中断。备服务器在平时没有业务接入,是否真正实际可用无法确定。在此情况下产生应用交付,负载均衡被架在前方,同时对几台服务器进行负载,既保证这几台服务器平时的可用性,也提升了整个业务系统的健壮性和性能。

随着越来越多的客户核心业务进入数据中心,当单个业务系统的出口出现问题时,例如移动、电信线路断开,链路不稳定使得整个业务系统无法访问,链路负载由此诞生。链路的负载均衡可帮助进行故障时的链路切换,并且保障联通的用户访问资源尽可能从联通的链路返回,避免跨运营商访问,减少时延提高性能。

由于越来越多的业务需要系统可靠性的保障,需要从底层到上层对系统实施很多高可用措施,从而避免任何一个点出现单点故障,例如在核心业务的存储方面,购买两对存储,存储相互之间作为镜像,从而保证一个存储故障时另一个存储可用,在网上接入的存储相关的交换机必须为两个,并相互之间进行堆叠。上层采用多台服务器,应用交付类的产品认为单点是不可靠的,需要支持双机或者集群。随着业务系统越来越多,数据中心管理变得复杂烦乱。
  d1faf53617a4726c945b2e394baaa1f86410db4b
当大量的重要业务交给数据中心时,如果数据中心出现问题会变得非常危险,进而诞生全局负载,建设主备数据中心或者互为主备的数据中心,接着发展为两地三中心或者多户数据中心。面对流量如何在多个数据中心进行合理的调度,如何保证每个数据中心不会过载,当进入双户数据中心时,很多情况下并不是对等的双户,只对部分业务进行双户,使得一个数据中心的规模小于另一个数据中心,不能均匀地进行流量调度,此时会将应用交付应用到全局负载中。
  29198b16eb089d67e8e9c9330959ffbaaae77ae8
如图为典型的抽象数据中心,从接入层中可以看到链路负载,以web区为例,web接受https并进行卸载,卸载需要SSR的安全网关,SSR安全网关需要负载保证自身的稳定,SSR安全网关本身就是负载产品的一项功能,接下来对网站进行WAF清洗,防止产生漏洞,同时WAF设备本身需要保证一定的健壮性,需要进行WAF负载。真实业务中的物理或虚拟服务器同样需要进行负载提高健壮性。图中红色框中都是应用交付产品即负载均衡产品,数据中心中的应用交付产品是天然的所有流量的入口,不管web访问流量还是内部业务系统之间的交互流量,都需要经过负载均衡,作为流量的探针应用交付产品可以抓取流量中的信息,同时作为控制器可以对流量进行个性化的编程,将流量编排的结果进行输出。深信服和阿里巴巴的合作就是基于以上基本原理。

三、 深信服与阿里合作
  aac0f6c9d49719ba5c4cc5c54b6407aa95b65298
深信服从三个方面与阿里巴巴进行合作,第一层面为故障的发现与处理,即为常规的运维阶段。第二层为用户价值的挖掘。第三层为识别风险与阻断攻击。
  8fc03eac6a42638ead9f477292d4257c3fa6d9d3
在故障的发现与处理基本原理中,所有的流量首先经过负载均衡设备,接着发送到服务器,服务器可以把抓取的流量根据已编排的模型全部输出给阿里巴巴的云脑,常规下AI的云脑会将现有的模型输出数据发送给阿里,分担流量的压力,例如每秒新建的连接数、每秒新建的请求数、并发的连接数和吞吐量等,同时通过与阿里云平台的联动,可以获取服务器的CPU、内存、IO时延,从而分担服务器的压力。阿里巴巴的云脑可以获取整个业务的压力情况和业务的服务能力情况,并对数据进行智能分析产生业务指标基线,根据异常点发现问题。云脑的分析周期保证至少40天,其中包含一个月完整的周期数据和四个星期的横向对比,从而了解业务高峰等信息。当出现故障时,告警信息通知到阿里巴巴的云脑,云脑根据数据进行分析,得出故障严重性、服务器预测承担压力等信息供维护人员参考,从而采取合适应对措施。AIOps的应用提供预见未来风险的告警,而不是仅仅罗列大量的告警指标数据。
  8fd46c53078bc539b246a038c8a5ca8bc7ce39de
当建设双户或者多户的数据中心时,应用交付面对故障会尽可能将流量调用给其它数据中心。当建设云计算数据中心时,对于一家公司,所有业务同一时刻不可能都处于高峰期,有些业务处于波谷,出现故障的业务可能处于高峰期,此时数据中心会弹性地扩展更多的虚拟机,将业务流量分发给出现故障的业务,自动地进行恢复处理。
  85216e83437147cb68319ba1873a871d95455458
当服务器出现完全过载时,应用交付产品可以遏制流量的入口,限制并发的连接数,保证已接入的用户能够正常访问。
  047a2b0a7720d0b6d6b3fb881dfcd4b7f154d468
对用户价值的挖掘层面,如图以电商网站为例,通过可编程的方式建立模型、分析协议,通过接口将流量信息全部提取出来,包括用户的IP、账号、接入方式、页面的停留时间、整个url的访问列等。
  5cbae5e706bb3a25b678062f9b3d5f48fdc40f92
提取的用户信息可用于提高客户的访问体验,例如根据客户端的时延、访问量提供系统的优化建议,根据客户端和运营商进行调度,对弱网的用户开启单边加速的功能,保证弱网的用户也能拥有较好的访问体验,降低用户的流失率,提高交易转换率。提取的用户信息也可以用于分析挖掘客户的行为,例如根据用户的喜好推荐商品、分析客户群体的行为习惯等,提高交易转换率。
  f3d7a5781695c191c7bf7f923a16bee0450d5820
当公司整个业务系统的承受压力很强时,认证服务器并不一定很强,此时会遭受黑客的攻击而瞬间瘫痪。应用交付通过访问、认证基线分析出不正常的行为,AI针对每个API访问做出相应的访问限制,进而有效地阻断攻击。
  080a87ec001ee8dc27f8f3ace856d10e6f0dcbd9
深信服与阿里云合作带来的价值表现为三个方面:故障的发现和处理、用户价值的挖掘和智能地识别风险、阻断攻击。

本文由云栖志愿小组丁匀泰整理,编辑百见

相关实践学习
SLB负载均衡实践
本场景通过使用阿里云负载均衡 SLB 以及对负载均衡 SLB 后端服务器 ECS 的权重进行修改,快速解决服务器响应速度慢的问题
负载均衡入门与产品使用指南
负载均衡(Server Load Balancer)是对多台云服务器进行流量分发的负载均衡服务,可以通过流量分发扩展应用系统对外的服务能力,通过消除单点故障提升应用系统的可用性。 本课程主要介绍负载均衡的相关技术以及阿里云负载均衡产品的使用方法。
目录
相关文章
|
12天前
|
机器学习/深度学习 人工智能 运维
智能化运维####
本文深入探讨了智能化运维的前沿趋势与实践,通过融合大数据、人工智能等先进技术,重塑传统IT运维模式。我们分析了智能化运维的核心价值,包括提升效率、减少故障响应时间及增强系统稳定性,并通过具体案例展示了其在现代企业中的应用成效。对于追求高效、智能运维管理的组织而言,本文提供了宝贵的洞见和策略指导。 ####
|
14天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维在现代IT基础设施中的应用与价值####
本文探讨了智能化运维(AIOps)在现代IT基础设施管理中的实际应用、面临的挑战及其带来的深远影响。通过引入先进的算法和机器学习模型,智能化运维不仅提高了故障检测与响应的速度,还显著优化了资源配置,降低了运营成本,为企业数字化转型提供了强有力的技术支撑。 ####
|
12天前
|
机器学习/深度学习 人工智能 运维
智能运维在现代IT系统中的应用与挑战####
本文深入探讨了智能运维(AIOps)在现代IT系统中的关键作用,通过具体案例分析,揭示了其在提升系统稳定性、优化资源配置及自动化故障处理方面的显著优势。同时,文章也指出了实施智能运维过程中面临的数据安全、技术整合及人员技能转型等挑战,并提出了相应的解决策略,为读者提供了全面而深刻的见解。 ####
38 6
|
14天前
|
机器学习/深度学习 运维 监控
智能化运维:从被动响应到主动预防的转型之路####
本文深入探讨了智能化运维(AIOps)如何引领信息技术管理从传统的被动响应模式向主动预防机制转变,强调了大数据、人工智能算法与机器学习技术在提升系统稳定性和效率中的关键作用。通过分析智能化运维的核心价值、实施策略及面临的挑战,本文为读者揭示了一个更加智能、高效且灵活的IT运维未来蓝图。 ####
|
12天前
|
人工智能 运维 监控
智能运维在现代数据中心的应用与挑战
随着云计算和大数据技术的迅猛发展,现代数据中心的运维管理面临着前所未有的挑战。本文探讨了智能运维技术在数据中心中的应用,包括自动化监控、故障预测与诊断、资源优化等方面,并分析了当前面临的主要挑战,如数据安全、系统集成复杂性等。通过实际案例分析,展示了智能运维如何帮助数据中心提高效率、降低成本,并提出了未来发展趋势和建议。
|
12天前
|
机器学习/深度学习 数据采集 人工智能
运维新纪元:AIOps引领智能运维变革####
本文探讨了人工智能与运维管理深度融合的前沿趋势——AIOps(Artificial Intelligence for Operations),它通过机器学习、大数据分析等技术手段,为现代IT运维体系带来前所未有的智能化升级。不同于传统依赖人力的运维模式,AIOps能够实现故障预测、自动化修复、性能优化等功能,大幅提升系统稳定性和运营效率。文章将深入分析AIOps的核心价值、关键技术组件、实施路径以及面临的挑战,旨在为读者揭示这一新兴领域如何重塑运维行业的未来。 ####
|
10天前
|
机器学习/深度学习 数据采集 人工智能
智能运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的兴起背景、核心组件及其在现代IT运维中的应用。通过对比传统运维模式,阐述了AIOps如何利用机器学习、大数据分析等技术,实现故障预测、根因分析、自动化修复等功能,从而提升系统稳定性和运维效率。文章还深入分析了实施AIOps面临的挑战与解决方案,并展望了其未来发展趋势。 ####
|
5月前
|
缓存 负载均衡 算法
解读 Nginx:构建高效反向代理和负载均衡的秘密
解读 Nginx:构建高效反向代理和负载均衡的秘密
122 2
|
4月前
|
负载均衡 算法 应用服务中间件
nginx自定义负载均衡及根据cpu运行自定义负载均衡
nginx自定义负载均衡及根据cpu运行自定义负载均衡
91 1
|
4月前
|
运维 负载均衡 算法
SLB与NGINX的异同是什么
SLB与NGINX的异同是什么
455 2
下一篇
无影云桌面