蚂蚁金服的资深技术专家石世群:支付宝亿级APP的性能稳定性优化及运维实践

简介: 8月30-31日20:00-21:30,一场别开生面的技术大会—— “蚂蚁金服&阿里云在线金融技术峰会”将在线举办。本次将聚焦数据库、应用架构、移动开发、机器学习等热门领域,帮助金融业技术开发者深入解析互联网应用的前沿应用与技术实践。

8月30-31日20:00-21:30,一场别开生面的技术大会—— “蚂蚁金服&阿里云在线金融技术峰会”将在线举办。本次将聚焦数据库、应用架构、移动开发、机器学习等热门领域,帮助金融业技术开发者深入解析互联网应用的前沿应用与技术实践。

蚂蚁金服&阿里云在线金融技术峰会专题: https://yq.aliyun.com/activity/109
峰会统一报名链接:http://yq.aliyun.com/webinar/join/38

来自蚂蚁金服的资深技术专家石世群 ,将在本次峰会中为大家带来《支付宝亿级APP的性能稳定性优化及运维实践》的分享,下面是议题详情,供大家参考。

议题名称:《支付宝亿级APP的性能稳定性优化及运维实践》

议题简介:在用户规模快速增加,从工具型APP到线下、社交场景化超级APP的转变过程中,支付宝APP在性能稳定性上,面临了很多巨大的挑战,并实际发生过一些痛苦的线上事件。

总结这些关键的经历,我们在稳定性、性能、电量、流量、内存及存储等方面,建立了实际可量化的衡量标准,并通过实时监控、远程诊断及异常熔断&自动恢复、热修复等创新的技术手段,大幅度提高感知发现、定位、解决问题的速度和质量,最终构建适合支付宝这个超级APP的一套运维体系。

本专题主要涵盖

1) 实践检验过的稳定性、性能、电量、流量、内存及存储的度量方法。

2) 稳定性、性能、电量、流量、内存及存储等问题有效的诊断方法。

3) 从全局架构的角度,如何建立一套移动APP的性能稳定性运维体系。

关于分享者:石世群(花名钟鹞),蚂蚁金服资深技术专家,2009年加入支付宝,完整经历并参与了支付宝从产品型APP、平台型APP最终到超级APP的架构演进过程,主导了新一代开放、动态化及高可用、高性能、高灵敏度的技术架构,包括大规模应用的服务框架、模块化容器、APP运维等。目前主要负责支付宝APP性能优化及稳定性提升,构建适合超级APP的运维体系,覆盖稳定性、性能、电量、流量、内存及存储等方面从实时监控、远程诊断到异常熔断恢复的全部过程。

2016年8月30日晚20:00,石世群将在蚂蚁金服&阿里云在线金融技术峰会上发表《支付宝亿级APP的性能稳定性优化及运维实践》的演讲。为了帮助大家更好地了解石世群、评估本次演讲,云栖社区对石世群进行了采访。

以下是采访内容:

云栖社区:能否简单介绍一下支付宝APP,整个客户端架构的演进过程?

石世群:支付宝APP这五六年来,整个技术架构发生了非常大的变化,总体发展,是从产品型应用到平台型应用,再到超级APP应用这样一个发展阶段。我记得2010年刚刚出来第一版支付宝的时候只有三个功能,看账户、充话费、交易,目前市面上大概80%以上APP,技术架构都是这样一个分层、单体的应用。2013年、2014年过渡到平台型应用,一个明显的变化是以前有20个人做客户端,突然一下子公司的重点过来了,有100多个人全部做无线,这个阶段的特点已经变成了承载整个公司多应用的平台,当时一个很重要的技术架构的变动,就是通过服务化和模块化的方式,把整个大团队的并行开发支撑起来,让整个公司都能在这个平台上玩起来。

回到2015年到2016年,我们发现现在所看到的手淘或者是支付宝,已经不是单独的应用,背后是一群应用,这些应用除了在手淘有插件,在支付宝有插件,还有独立APP,已经变成了一个多应用的生态。

对开放的要求越来越高,以前我们支持好集团内部的就可以了,接下来有很多生态伙伴要进来,这个时候技术上需要提供统一标准化的方法,让这些新的应用能够进来并且协同快速成长,保证好开发效率和体验质量,从以前相对封闭的状态演变成合理开放的状态。

  • 动态化,现在业务变化越来越快,恨不得今天评需求,明天开发完,后天上线,而且能够分发到恰当的用户手上去,然后当需要发生某种变更,还要求几乎实时地反应到客户端上来,不可能再依赖于着一个固定的发布点和固定的周期。这里对于动态化技术的多层次、灵活性和精确度,提出了很高的要求。
  • 高可用、高性能、高灵敏度。以前外面如果有风吹草动的时候基本上没有感知的,但是在超级APP里要重点关注高灵敏度,一旦外面有风吹草动,我们可以很快地感知反映出来。

云栖社区:性能稳定性优化上,支付宝有哪些独特的技术和优秀的实践?

石世群:去年1年,我们在支付宝APP的性能稳定性上下了很多的功夫,突破了很多业界的技术难点,取得了卓越的成果。包括在性能、电量、流量和内存上,都取得很大的突破。我们对内部的模块化quinox容器支持按需加载,并作了很大幅度的性能调优。在虚拟机层面,对dalvik vm进行深度调优,比如按需要关闭jit,安装后首次启动或使用时去dexopt等等。流量上对RPC、底层网络协议也进一步精简和治理。

云栖社区:类似支付宝这样的超级APP来说,未来性能稳定性上,架构层面有什么考虑?

石世群:仅仅做这些性能稳定性上单点的优化,短期效果是非常突出的,但是还远远不够。总结这些关键的经历,我们在稳定性、性能、电量、流量、内存及存储等方面,建立了实际可量化的衡量标准,并通过实时监控、远程诊断及异常熔断&自动恢复、热修复等创新的技术手段,大幅度提高感知发现、定位、解决问题的速度和质量,最终构建适合支付宝这个超级APP的一套运维体系。

相关文章
|
移动开发 运维 监控
掌握Linux运维利器:查看CPU和内存占用,轻松解决性能问题!
掌握Linux运维利器:查看CPU和内存占用,轻松解决性能问题!
1272 0
|
XML Java Android开发
Android Studio App开发中改造已有的控件实战(包括自定义支付宝月份选择器、给翻页栏添加新属性、不滚动的列表视图 附源码)
Android Studio App开发中改造已有的控件实战(包括自定义支付宝月份选择器、给翻页栏添加新属性、不滚动的列表视图 附源码)
400 1
|
架构师 Java
jvm性能调优实战 - 35电商APP后台系统如何对Full GC进行深度优化
jvm性能调优实战 - 35电商APP后台系统如何对Full GC进行深度优化
391 0
|
运维 监控 安全
高效运维管理:提升企业IT系统稳定性与性能
在当今信息化时代,高效的运维管理对于企业IT系统的稳定性和性能至关重要。本文将探讨如何通过优化运维流程、引入自动化工具和建立完善的监控体系等措施,实现高效运维管理,从而提升企业的核心竞争力。
|
运维 负载均衡 监控
提升系统性能:高效运维的秘密武器——负载均衡技术
在当今数字化时代,系统的高可用性和高性能成为各类企业和组织追求的目标。本文旨在探讨负载均衡技术在运维工作中的关键作用,通过深入分析其原理、类型及实际应用案例,揭示如何利用这项技术优化资源分配,提高系统的响应速度和可靠性,确保用户体验的稳定与流畅。无论是面对突如其来的高流量冲击,还是日常的运维管理,负载均衡都展现出了不可或缺的重要性,成为现代IT架构中的基石之一。
807 4
|
存储 运维 监控
实时计算Flink版在稳定性、性能、开发运维、安全能力等等跟其他引擎及自建Flink集群比较。
实时计算Flink版在稳定性、性能、开发运维和安全能力等方面表现出色。其自研的高性能状态存储引擎GeminiStateBackend显著提升了作业稳定性,状态管理优化使性能提升40%以上。核心性能较开源Flink提升2-3倍,资源利用率提高100%。提供一站式开发管理、自动化运维和丰富的监控告警功能,支持多语言开发和智能调优。安全方面,具备访问控制、高可用保障和全链路容错能力,确保企业级应用的安全与稳定。
329 0
|
机器学习/深度学习 数据采集 运维
智能化运维:利用机器学习优化系统性能
在当今快速发展的信息技术时代,传统的运维方式已难以满足日益增长的业务需求和复杂性。本文将探讨如何通过机器学习技术来提升运维效率,确保系统的高可用性和性能优化。我们将深入分析机器学习模型在预测系统负载、自动故障检测与响应以及资源分配中的应用,并讨论实施这些策略时可能遇到的挑战和解决思路。
|
开发框架 缓存 .NET
【App Service】在Azure App Service中分析.NET应用程序的性能的好帮手(Review Stack Traces)
【App Service】在Azure App Service中分析.NET应用程序的性能的好帮手(Review Stack Traces)
211 0
|
存储 开发框架 监控
【Azure Logic App】添加 Storage Account 来提升 Logic App 的性能
【Azure Logic App】添加 Storage Account 来提升 Logic App 的性能
257 0
|
监控 测试技术
APP的稳定性测试如何做?
APP的稳定性测试如何做?
1358 1