开发者学堂课程【云原生中间件产品销售红宝书:应用高可用 AHAS 产品销售指南】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/629/detail/9890
应用高可用 AHAS 产品销售指南
二、AHAS产品简介
上图是比较常见的分布式系统,页面上常见的应用架构部署关系。进来的是网关,主流的有 Zuul/Spring CloudGateway),还有很多在个官网。核心系统业务里面会有各种应用,每个应用也都是集群化的,应用a,应用B,应用C,两个是不同的集群,应用a会调用应用B,也会调用应用B再调用它的子应用里面的一块,同时子应用之间又会调用第三方的服务,是比较常见的,也是比较经典的业务架构,AHAS流量管理可以在入口网关的维度做到gateway级别的流量控制,比较推荐,如果接触到的客户是运维岗位,推荐很合适,因为运维岗位没有线上系统配置修改条件,但是gateway网关级别的流控有90%的所有权,它是管控的入口,所以针对运维级别它不涉及到任何的代码,也不涉及到线城的配置。第二个是应用级别,比如应用a,应用级别的流量控制,服务能力可以进行流量的塑形,它适用于单个流量出现前一秒有峰值流量时可以等待,后一秒再让它进行处理,针对整个应用级别。第三个是应用之间会有调用,应用和应用之间对以来的下游是不可靠的应用进行熔断降级或者是现成的隔离,因为在调用时以防被下游拖垮,所以可以对下游进行熔断的降级,直接不调用它或者是某线程上面进行隔离,一部分线程专门处理会有异常应用的调用,还有一部分线程处理正常的流量请求。第四个在某一个应用里面可以对单机进行过载保护,原来急情化的会有N台,其中有一台会有问题,可以对它进行单机的过载保护,防止整个系统进行雪崩。比如整个系统的维护好不要超过80%的cpu,如果超过会有措施,所以AHAS提供四个level级别,网关级别就是入口级别,应用力度的整个应用集群,应用和应用之间对下游的熔断降级和对上游异常调用的隔离。第四个是单力度的单机进行过载的保护防止雪崩。
1、非阿里云客户能用吗?
可以,无论客户是公有云/专有云/混合云/自建IDC ,非云上用户通过
公网 region 即可查看数据。配置方式控制台有。
2、是否需要修改代码?
使用 agent ,可以无需修改一行代码,即可使用。
3、能在紧急的情况下才使用吗?
AHAS提供分层收费:日常使用入门防护即可拥有基础防护功能;紧
急情况时打开开关(实时生效)变成高级防护,可生效全方位防护。如同安全带一样,紧急时刻的报名利器。
4、AHAS 应用高可用服务
是一款专注于提高应用高可用能力的云工具产品。
5、功能
(1)在突发的流量洪峰来的时候限制流量进入对系统、数据库等的冲击,留足扩容的时间保证高可用。
(2)防护措施,可以避免“上游异常调用”、“下游应用拖垮自己"
别人调用时出现异常,可以拒绝他,或者让他等待,调用别人时很慢不能一直等待他,怕他拖垮自己,也是对自己,AHAS提供上下游的的能力。
(3)同时故障演练、架构感知也是重要的功能,只要装上agent是完全免费的。
6、客户为什么用
当故障发生时,只能被动的等It人员修复,而现在,运维可以进行主动防御和故障隔离,保障系统稳定!可以再提前做好防护的措施,留足预留的时间,同时防护的全面性是非常高的,其次在真的出现异常时可以实时的对它进行隔离,一整套措施保证整个系统的稳定运行。
7、客户群体:全类型的互联网企业
典型客户:思埠集团
年均消费:15w
8、全方位流量保护
从一个请求流转的角度,全方位的流量保护有哪些方面?
一个请求从客户端上发起,手机电脑或者智能家居,通过网络到网关层面经过防火墙经过slb到应用层web应用层,应用和应用之间的调用,自己的应用会叫第三方会叫数据库叫消息,还会叫缓存,正常的请求流转,在不同的层面,网关到客户侧层面可以看到流量的实时监控,同时能够进行水位的诊断分析,有没有突增的流量,有没有突然消失的流量,第二个是在业务的链路入口,从网关到的web server上做链路入口的流控,也可以做热点的漏斗,设置请求往下流转时的漏斗模型,第三个在服务的内部可以按照服务的水位进行流控,可以做削峰填谷,可以做流量的匀速器,在服务与依赖之间包括第三方数据库消息或者是cache,客户反馈非常好的慢sql发现,在线上发现慢sql时往往是来不及进行修的,这时能快速的发现,其次是发现之后能够做快速的熔断,第二个是慢方法,业务应用里面有慢方法和慢sql一样,把慢方法和慢sql都垄断掉。第三个会有热点的探测,看是否有热点异常的请求,这是整套的流量防护。
9、典型使用限流防护的业务场景
(1)新系统上线
新系统上线,为保护产品口碑,进行限流防护。新系统上线时无法预估到真正实际的情况,很多时候真实流量会比业务给的指标会高,按照业务指标准备的系统会不够抵抗更高的流量,需要进行限流防护以便保证的产品口碑。
(2)峰值业务稳定性
类似阿里双11的峰值业务稳定性考验,保障峰值业务不受损。AHAS在集团内部也是应用到每一个业务系统里面,包括它的峰值,日常也是一直在使用。
(3)异常请求隔离
识别异常接口,隔离不稳定的调用,不影响正常使用。ar的秒级监控以及到慢方法和sql级别可以快速的识别异常的接口,也能够快速的隔离不稳定的调用,使它不影响正常的流量。
(4)热点IP识别
识别异常热点IP (过热流量)并进行处理。系统可以根据提前配置的规则做事情。
10、产品主要客户类型
汽车之家在狂欢业的晚会上使用限流防护的功能,保证整个晚会的顺利的进行,是它第一个在线的晚会,类似于双11的晚会,举行的非常成功,量级非常大。
11、AHAS客户行业类型
客户类型 |
客户举例 |
业务特性及防护防护 |
金融类 |
友邦 |
金融理财型服务,涉及到的业务系统非常复杂,会有很强的依赖和校验性。使用AHAS的流量防护; |
保险类 |
太平 |
开门红活动会有较大突发流量,且涉及到付款,需要稳定无异常。使用AHAS的流量防护。 |
互联网电商 |
完美日记 |
涉及三方系统,大促期间业务模型不确定性非常大。使用AHAS的流量防护,保证系统稳稳运行; |
社区电商 |
未来集市 |
重度依赖三方系统接口,接口升级时导致系统出现问题。使用AHAS的异常隔离,保证系统稳稳运行; |
教育相关 |
考生报名系统 |
报名系统一年-度峰值, 报考期间异常到产生较大的社会舆论压力。 |
政企类服务 |
个税、学习强国 |
经常会有业务高峰,且涉及到民生场合,出现问题舆论较大。进行网关及应用流控保护 |
传统行业 |
汽车之家 |
818汽车狂欢夜晚会,首次大型晚会,量级达到千万级别。使用AHAS的流量防护,晚会活动顺利进行。 |
越大的系统岗位分配会更明显,会有人专门管理网关,比如网关基本上在运维手上,所以如果遇到运维岗位的同学可以比较重点推荐这款。如果遇到业务上的同学可以推应用级防护和网关防护。
12、计费方式
(1)AHAS 有预付费和后付费两种方式。解决方案需另外按照人天计算。帮他梳理或者配置怎么样的规则更合适,设计一套高可用方案。
无论是预付费还是后付费,计费单位是节点*天,即每天运行节点数。(2)举例:预付费80节点*天资源包,可80个节点用1天,或40个节点用2天。
跟pds的vum有点像,它是乘的关系,如果指标变大,另外指标会变小,它是集合的东西,后付费会有后付费的免费版,无论是后付费还是预付费都会有免费的节点,每天会有五个免费的节点,后付费的专业版又分入门防护和高级防护,收费不一样,预付费里面分防护功能。
(3)后付费免费版可有5节点*天。
后付费专业版分为入门门防护和高级防护:
入门防护: 0.3/节点/天
高级防护: 3元/节点/天
入门级的防护能够提供基础的防护功能,日常时可以用,高级防护是很全面的防护,包括历史监控数据可以看七天,防护规则数不受限制。
(4)如果您在杭州region有10个限流降级节点,在北京region有20个限流降级节点。
仅开通免费版:杭州region运行12小时候停止服务;北京region运行1小时候停止服务;
开通专业版但未购买资源包:
入门级防护:每天费用= (实际节点数-免费节点数) *单价= ( 10-5) *0.3元+(20-5) *0.3元= 1.5元+ 4.5元= 6元。请注意:入门级防护规则数及防护能力有限。
高级防护:每天费用= (实际节点数-免费节点数) *单价= ( 10-5) *3元+ ( 20-5) *3元= 15元+ 45元= 60元。
在大促时使用高级防护功能,比较好。
13、场景:可能出现超高流量访问情况,出现预期之外的
(1)典型客户:电商及其它互联网公司
(2)具体场景:现在是移动互联网时代,随时会有热点,比如微博,它经常会有突发的事件发生,会出现超高流量访问的情况,电商大促、热点事件导致海量访问(如世界杯、春节)、系统上线 测试性能。
(3)产品组合: PTS+AHAS(高可用)
(4)搭配原理:
PTS模拟真实流量来测试系统性能是达到预估水平,不仅仅发现系统瓶颈,还可以发现网络瓶颈。验证当前系统能承受多少量或者预估一百万的量需要多少台机器,pds可以验证预估预期内系统的事情。
当出现意外的流量洪峰时, AHAS能够保护系统,保证有时间扩容,而非是全局崩溃。
(5)典型客户:逻辑思维
(6)年均消费: 50w
客户为什么用:系统不稳定会在很大程度上影响营销活动的效果和客户的体验,而本方案可以解决这个问题!用PTS提前预估系统水位,用AHAS根据预估系统的水位限制意外的宏峰流量到时系统不稳定性。
三、性能测试PTS+ AHAS一销售案例
1、行业:电商客户
2、业务痛点: 电商客户平台,经常做促销活动,由于参加的人比较多,之前没有测试过系统的实际承载能力,导致活动高峰的时候,出现系统瘫痪严重问题,造成较大的损失。"双十一”临近想知道现在架构能承受多大并发量,提前的做好准备。
3、销售方法:在日常的沟通当中了解到客户有这样的烦恼,于是想到了阿里云的PTS。
PTS进行预估,AHAS进行预防。
(1)首先给客户介绍产品功能+优势,构建流量简单+快速可控,轻松模拟大量用户访问业务的场景,且有AHAS定向防护;
(2)并且举例了懂球帝使用PTS的案例,成功说服客户尝试。
4、使用效果:
(1)压测随时调速,立刻能模拟出一系统能够承载的实际流量峰值
(2)又针对系统瘫痪问题,又加上了AHAS的流量防护,避免溃堤。发现更多隐藏的问题,能够及时优化防护系统,对即将来临的活动,充满了信心。在预估的准备好之后要有预防的防护措施,用AHAS的流量防护可以避免的系统由于额外的流量带来整个的崩溃。
四、客户案例介绍-太平
(1)客户场景
业务场景:开门红活动、新产品发布(太平宝宝)。
项目背景:影响品牌和业务体验、业务接口复杂、业务数据安全性第一、量级与日常有非常大的变化、准备时间段、业务不确定性较高。
(2)价值
客户收益:突发流量来临时,无需再临时紧急扩容,保险金融类开门红活动涉及到系统和业务复杂度是非常高的,它调用就会出现慢sql或者慢接口,能够看到复杂系统的慢SQL/慢接口,快速定位+解决,活动和产品发布顺利进行。
(3)我们的收益
大场景客户对产品的验收能力、产品信任度高,每次活动都会使用AHAS ,日常也会作为防刷安全防护。日常会使用的规则比较少,阈值比较低,日常会使用ahas保证防刷单的情况。
(4)打法策略
配置检验(事前)
梳理核心业务,实施压测得出系统容量上限,按照业务重要程度,配置不同的防护手段(排队、削峰填谷、熔断等)
实时监控调整(事中)
秒级监控-真正实时监控线上数据,突发异常可调整阈值进行隔离、降级。
隔离和降级的手段里有两个意图,一个是进行流量的拦截,还可以拒绝掉异常请求,第二个可以做排队等待,削峰填步的功能。
五、总结
pds 可以做预估的事情,根据预估的流量预估需要多少容量或者是验证线上整个系统能承载多少的业务流量,预估的事情做完之后做预防,预防怎么保护系统,ahas是必不可少的工具,它可以很好的进行保护,类似于像汽车上的安全带一样,平时不在意,但是平时一定要记上它,让它保护自己预防突发情况下不能够很好的流转下