如何运维超大体量的数据库集群?阿里巴巴数据库运维最佳实践

本文涉及的产品
云数据库 Tair(兼容Redis),内存型 2GB
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
简介: 阿里云数据库出席“2021中国数字服务大会”

今天,由中国计算机学会(CCF)主办,CCF服务计算专业委员会、浙江省湖州市政府等承办的“2021中国数字服务大会(ChinaService 2021)”隆重召开。该会议以“数字服务、跨界融合、协同创新”为主题,为与会代表提供了一个学术交流、成果展示、共享合作的平台。

image.png


阿里云数据库事业部解决方案资深专家李圣陶受邀出席“数字运维服务论坛”,并分享了《阿里巴巴数据库运维最佳实践》。从历史长河来看,阿里集团业务面临三大挑战,超大规模实例集群、超大研发用户群体、双11零点高峰热点。其中,作为全国人民购物狂欢节的双11大促,需要数据库能够支撑复杂度高的交易类型业务。11零点峰值可达到平时百倍压力,对数据库的稳定性要求极高,需要流程丝般顺滑,并且能够按时发射,不准延期等。今天阿里巴巴集团数据库集群已经全部运行在阿里云上,阿里云数据库历经各届双11及行业客户业务的考验,完美支撑了集团超大体量数据库集群的运维,充分发挥出云数据库的技术优势,支持好复杂多变的业务场景并助力集团业务快速发展。


特别是在电商场景中,云原生关系型数据库PolarDB承担云上客户双11核心交易流量,具备大容量高弹性、高性能低时延、安全高可用的特点,结合全球容灾、闪回查询等核心技术,大幅降低数据库使用门槛。云原生分布式数据库 PolarDB-X具备水平扩容、金融级高可用等重要特性,可平稳应对单表数据量过大、业务潮汐,历经各届双11的考验,能有效解决热点数据的高并发更新性能瓶颈,助力业务稳定运行。云原生数据仓库AnalyticDB提供强大的批处理和多维度复杂分析能力,支撑客户包括ETL、CRM及在线报表等多种功能,为电商场景订单、仓储、分销及协同供应链等功能提供有力分析支持,从容应对大促活动。


云原生多模数据库Lindorm可支持海量数据的低成本存储、快速批量导入和实时访问,具备高效的增量及全量数据通道,在支持电商场景下高并发用户体验数据存储同时,提供大规模数据的实时分析。在大型促销秒杀系统或者带有计数系统的库存系统,系统整体访问压力巨大,云原生内存数据库Tair可轻松承载读取压力并提供数据持久化。云数据库RDS针对电商秒杀场景进行专项优化,解决热点数据的高并发更新性能瓶颈。通过高安全模式,内置SQL注入检测模块,实时拦截风险SQL,保护数据安全。此外,DMS可实现数据安全防护和开发规范,提供端到端的数据安全防护能力,拥有10万级周活开发者,支持27种数据源,服务24万企业全域数据资产,支持超过65万的数据集成链路,让数据在数据库和数据仓库中无缝流转。


阿里云作为中国唯一的科技厂商成功进入Gartner全球数据库领导者象限,在产品技术领域进展迅猛,获得市场广泛认可,目前已有超过15万个数据库客户迁移到阿里云上,包含政务、零售、金融、电信、制造、物流等多个领域的龙头企业。

相关文章
|
3月前
|
运维 Prometheus 监控
OceanBase 的运维与监控最佳实践
【8月更文第31天】随着分布式数据库解决方案的需求日益增长,OceanBase 作为一种高性能的分布式数据库系统,在众多场景下得到了广泛应用。为了确保 OceanBase 集群的稳定运行,合理的运维与监控是必不可少的。本文将探讨 OceanBase 的日常运维管理与监控策略,并提供相应的代码示例。
203 2
|
26天前
|
运维 关系型数据库 MySQL
运维|MySQL 数据库被黑,心力交瘁
前一阵有一个测试用的 MySQL 数据库被黑了,删库勒索的那种,这里记录一下事情经过,给自己也敲个警钟。
35 2
|
2月前
|
存储 缓存 关系型数据库
阿里云数据库 SelectDB 多计算集群核心设计要点揭秘与场景应用
在云原生存算分离架构下,多计算集群的实现从技术方案上看似乎并不存在过多难题。但从产品的角度而言,具备成熟易用的多计算集群能力且能运用于用户实际业务场景中,还有较多核心要点需要深度设计
阿里云数据库 SelectDB 多计算集群核心设计要点揭秘与场景应用
|
1月前
|
存储 运维 监控
实时计算Flink版在稳定性、性能、开发运维、安全能力等等跟其他引擎及自建Flink集群比较。
实时计算Flink版在稳定性、性能、开发运维和安全能力等方面表现出色。其自研的高性能状态存储引擎GeminiStateBackend显著提升了作业稳定性,状态管理优化使性能提升40%以上。核心性能较开源Flink提升2-3倍,资源利用率提高100%。提供一站式开发管理、自动化运维和丰富的监控告警功能,支持多语言开发和智能调优。安全方面,具备访问控制、高可用保障和全链路容错能力,确保企业级应用的安全与稳定。
42 0
|
2月前
|
运维 云栖大会
运维管理新品发布与最佳实践 | 2024云栖大会预告
运维管理新品发布与最佳实践 | 2024云栖大会
|
3月前
|
存储 运维 监控
数据库服务器运维最佳实践
【8月更文挑战第22天】
69 2
数据库服务器运维最佳实践
|
3月前
|
缓存 运维 监控
打造稳定高效的数据引擎:数据库服务器运维最佳实践全解析
打造稳定高效的数据引擎:数据库服务器运维最佳实践全解析
|
3月前
|
存储 缓存 负载均衡
带你认识DM 共享存储数据库集群
带你认识DM 共享存储数据库集群
79 3
|
3月前
|
运维 Oracle 前端开发
Oracle 11g RAC集群日常运维命令总结
Oracle 11g RAC集群日常运维命令总结
96 2
|
3月前
|
关系型数据库 MySQL Serverless
在部署云数据库PolarDB MySQL版 Serverless集群的过程中问题点
在部署PolarDB MySQL Serverless过程中,常见问题包括配置误解、网络配置错误、资源未及时释放及压测不熟练。建议深入理解配置项,确保合理设置伸缩策略;明确业务需求,使PolarDB与现有服务同处一地域与VPC;利用提醒功能管理资源生命周期;按官方指南执行压测。新用户面临的学习曲线、资源管理自动化不足及成本控制难题,可通过增强文档友好性、引入智能成本管理与用户界面优化来改善。
66 1
下一篇
无影云桌面