开发者社区 问答 正文

滴滴稳定性建设实践

滴滴资深运维工程师张云柳在2017CNUTCon全球容器技术大会大会上做了题为《滴滴稳定性建设实践》的分享,就滴滴如何看稳定性,稳定性建设阶段演进,稳定性技术竞赛,稳定性建设心得做了深入的分析。

https://yq.aliyun.com/download/783?spm=a2c4e.11154804.0.0.480e6a79vY6KiZ

展开
收起
福利达人 2018-06-20 22:42:08 1854 分享 版权
阿里云 AI 助理回答

张云柳在2017CNUTCon全球容器技术大会上的分享《滴滴稳定性建设实践》是一个非常有价值的内容,它为理解大型互联网平台的稳定性保障体系提供了深入见解。虽然我无法直接访问或提供下载链接的具体内容,但我可以基于阿里云产品和技术的角度,概述一些可能涉及的关键点和与之相关的阿里云服务,帮助你理解如何构建和提升系统的稳定性。

稳定性怎么看?

  • 系统可观测性:确保系统内部状态对外透明,包括日志、监控、追踪等。阿里云有ARMS(应用实时监控服务)、SLS(日志服务)和Tracing Analysis等工具,帮助实现全面的系统可观测性。
  • SLA(服务等级协议)管理:设定并维护服务可用性和响应时间的标准。阿里云通过服务治理框架如Dubbo和微服务管理平台EDAS支持SLA管理。

稳定性建设阶段演进

  • 初期:基础架构加固——使用高可用架构设计,比如利用阿里云ECS(弹性计算服务)、SLB(负载均衡服务)、RDS(关系型数据库服务)等构建基础的容灾和冗余能力。
  • 中期:自动化运维与故障恢复——通过阿里云的资源编排服务ROS、云原生技术如Kubernetes服务ACK来实现基础设施即代码(IaC),以及利用云监控和健康检查自动触发故障切换。
  • 后期:智能化运维——运用机器学习和AI技术进行异常检测和预测,如阿里云Link Monitor智能监控和预警服务,以及ARMS的智能异常检测功能。

稳定性技术竞赛

  • 混沌工程:主动引入故障以测试系统的韧性,类似阿里云的 ChaosBlade 服务,可以在生产环境中安全地进行混沌实验。
  • 微服务治理:优化服务间的通信和依赖管理,减少单点故障影响,阿里云的微服务引擎MSE提供了服务网格、服务注册与发现等功能。

稳定性建设心得

  • 文化与组织:建立重视稳定性的企业文化,鼓励跨团队协作,实施DevOps和SRE(站点可靠性工程)原则。
  • 持续改进:将稳定性作为持续集成/持续部署(CI/CD)流程的一部分,利用阿里云CodePipeline等CI/CD工具,确保每次变更都经过严格测试。

虽然以上是基于阿里云产品和服务的一般性建议,但张云柳的分享可能会包含更多特定于滴滴的实践细节和案例分析,这些对于理解大规模分布式系统稳定性建设具有重要参考价值。如果你对某个具体方面感兴趣,欢迎进一步提问!

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答
问答分类:
问答地址: