2018年云栖大会上海峰会,阿里云资深技术专家王维对保障云上尖峰时刻护航进行了分享。阿里云护航教育、金融核心业务0故障。王维就云上护航服务概念,近几年业务的迅速发展带来的典型业务场景及所面临的挑战、技术要点及案例进行了深入的解析。
数十款阿里云产品限时折扣中,赶快点击这里,领券开始云上实践吧
直播视频请点击
PPT下载请点击
以下是精彩视频内容整理:
云上护航
对于企业系统云,阿里云希望在云上构建一个柔性和弹性的系统来支撑业务的快速发展,支撑业务转型、突破和进化。
如上图所示是客户业务的发展,从上云开始不断地有新业务上线、大促、周年促销、周年店庆和“双十一”大促等。业务得到了快速的发展,给IT系统带来非常大的挑战。
典型业务场景—及更多挑战
云上护航在金融保险的整个企业发展过程中经历了很多的挑战,其中包括系统的容量性能、稳定性等;云上护航在游戏行业,也经历了很多的挑战,像游戏的推广、云服等。最近会进行的S8联赛,会持续几个月的时间。我们需要在正常的时间保证每次都能正常的完成所有的服务;像“双十一”等大促类活动,当天的购买和物流量增加非常大,需要保证系统可以正常进行;所有的粉丝球迷都可以通过电视或者手机APP去看最近的世界杯。世界杯期间顺利的直播也是一个非常大的挑战。
每一个业务的背后都有IT行业人员在艰辛的付出和努力。从技术角度看,云的弹性收缩、系统的高并发、视频的直播流畅和安全都非常的重要。这些技术对IT行业都是非常综合性的挑战。对产品组合的合理性、产品和行业特性的适配、方案的容量容灾性能、赋能的支持模式和保障体系等有着综合性的挑战。
阿里云的专家团队对多年行业客户、集团大促等活动保障案例的积累和总结,阿里云专家团队为云上客户提供量身定制的护航服务。护航服务首先需要一支很强的专家团队,阿里云就有一个非常庞大的技术团队;其次能提供从网络平台数据到应用数据技术方案,做一个端到端的保障体系;还需要有一套规范化的运作,以及一些最佳实践,像新零售、游戏金融等。
关键技术
云上护航的技术面
通过以前对技术案例的总结,云上护航的技术主要从性能瓶颈、资源、灾备以及安全性能上进行优化。在性能瓶颈里面,CPU、IO、PPS、产品组合是否合理;在网络架构、平台架构、数据架构上需要看分层分秒是否合理,是否和我们的业务强相关,架构和分层分秒是根据具体的业务来定。资源和灾备里主要是从网络质量预案、资源的扩容与部署、容灾级别和直播量级保障上进行技术优化。无论是在电商、游戏和互联网技术,安全问题是非常大挑战。阿里云在现在遇到的技术问题上都能非常好的进行解决。
云上护航服务的管理面
对于每一次业务的上线,每一次的大促,技术上架构都是已经做好的。现在需要做的更多的是项目管理的过程。以大促管理为例,首先确定业务目标是啥,然后对业务进行预估和判断,然后进行关键业务的识别、系统容量的分析、安全层面分析、数据库层面分析。找到系统中间需要优化的点然后做相应的方案,最后把这些方案落实下去。在大促的当天要有一个保障的机制,一方面是远程的支持,另一方面是非常重要的地方要进行现场的保障。每次做完后需要进行经验的总结。通过上面的技术和管理我们才能对每次的大促活动、业务推广做的更好。
案例应用
教育类
每年开学都会遇到业务的峰值,这是业务的一个突发。目前已经运用阿里云产品构建app后台基础服务,设计20多款阿里云产品,其中包括幼教类APP、教育后台管理系统、流媒体监控系统等。
原系统有数据库性能差、缺乏大流量场景下的调优能力、缺乏系统化风险评估和监控方案、出现故障无法快速恢复业务、无灾备方案等缺点。经过阿里云护航提供全链路的评估,全链路压测、业务架构优化、数据库优化、监控方案完善等服务,进行全面的系统诊断和容量分析评估;深入的剖析业务上存在的风险和隐患;结合评估和压测的结果来改造业务架构;结合用户实际业务场景,对数据库频发的问题进行专项调优;基于产品架构、业务架构制定监控预警和业务紧急恢复方案。最终护航效果非常好,数据整体性提升40%;数据库调优后,核心业务护航期间0故障;业务指令并发数提高30%多。
互联网金融
互联网金融业务在飞速发展,在去年一年的时间内,业务增加了十倍左右。系统每天都属于扩容建设状态。阿里云对它进行全面的诊断和容量分析评估,对业务高峰进行断点的预测。因为系统量比较大,扩容速度非常的快,所以需要进行评估、压测、优化和扩容然后支撑整个业务的快速发展。从去年的调查来看,每做一次大促,系统容量就要提升20-30%。
如上图所示是优化后的系统图,全面提升了安全入口的防护功能,达到了监管机构的要求;引入负载均衡双可用区,大幅提升入口吞吐,实现同城的容灾建设;采用了hadoop集群,同时改造为云上EMR集群,实现数据云上统一,高效运算。