数据库智能管理助手-CloudDBA

本文涉及的产品
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
简介: 阿里云CloudDBA主要分为离线分析和在线分析两种功能。帮助用户节省成本,定位问题,分析原因并推荐解决方法。CloudDBA可以做到实时诊断,离线诊断和SQL优化。并且通过MySQL的参数调优,检测参数的不合理或者准备的延迟的情况。
摘要:阿里云CloudDBA主要分为离线分析和在线分析两种功能。帮助用户节省成本,定位问题,分析原因并推荐解决方法。CloudDBA可以做到实时诊断,离线诊断和SQL优化。并且通过MySQL的参数调优,检测参数的不合理或者准备的延迟的情况。

演讲嘉宾简介:
勋臣,阿里云RDS内核团队技术专家,目前阿里云CloudDBA专家系统开发。有着丰富的数据库开发管理和优化的经验。

以下内容根据演讲嘉宾视频分享以及PPT整理而成。

本次的分享主要围绕以下三个方面:

一、CloudDBA提供了什么
二、核心能力
三、典型实践应用

一、CloudDBA提供了什么
CloudDBA主要提供了两个功能,一个是离线分析,另一个是在线分析。我们知道DBA主要日常工作分为两块,一个是群检,还有就是做线上的响应,比如说我的数据库突然一下应用被卡住了,或者数据库出现性能抖动,这些问题都是需要DBA实时响应的。Oracle包括两个报告,一个是AWR报告,还有一个叫ASH报告,我们从功能上来说和Oracle有些类似。离线的分析主要是AWR报告,然后在线响应是ACTIVE SESS HISTORY。
CloudDBA在云上是SASS化的一块,是基于PaaS平台的增值服务。云上的SASS需要去解决性能的问题,问题的诊断,以及提供一些辅助的工具。云上的数据库跟自建的数据库有一点不同,如果数据库上云了之后,PaaS这层的工作云都帮忙解决了。比如,性能监控,HA等都已经做了。DBA真正要做的是上面这一层,就是怎么让数据库运行的更好,让用户用好数据库。
2521334038231db047dc4cd8379e498aa479c515
不管是云上的还是自建的数据库,它本身的成本实际上是看得见的,是很低的。对做DBA的同学来说,从准备到数据库上线花费的精力实际上是有限的。而真正的难点是如何把数据库管理好?因为我们为做产品的平台应用提供支撑,如果用户的使用习惯不好,很容易将我们的数据库搞坏掉,整个业务都会受到影响。所以从下图可以看到我们的数据库会有大量的维护成本,大概大于80%。当然DBA主要是解决应用中的一些问题,节省时间成本。比如说,用户反馈说应用卡住了,对DBA来说需要登录到数据库中,到控制台看动画,看看到底发生了什么?这些动作实际上是很重复,很机械的、如果有CloudDBA,它会有自己的一些小的脚本,比如定位问题,很快的可以输入用户名密码,把状态抓出来,基于状态做一些判断。这种方式是可以的,但是还有更好的解决方式,如果作为一个产品,把这样的行为产品化和服务化,交付出来。在应用卡住的时候,用户只需要点一个按钮,产品就可以把状态抓出来,并且分析出数据库卡住的点,并给出下一步的解决建议。甚至绝大部分场景,命令都会给生成出来,用户直接复制执行就可以了。
65af07a9a7c42cc6027401508cce6e6280737726

二、核心能力
1.实时诊断
我们会把DBA积累的经验产品化,编成程序,录入到资料库中去。将诊断的结果进行输出。我们在日常工作当中会经常发现同样的问题对不同的DBA来说解决的方式也不同。甚至说一位同学在当值班的时候遇到问题,知道怎么解决了,换另一位同学指班没有遇到问题,过了很长的时间再一次发生时大家可能都忘了如何解决这个问题。所以这时就需要将工作经验进行沉淀,产品化,服务化,再把它输入出来。我们把解决问题的方法。技巧,经验录入到资料库(Knowledge Base)中,它就是一个诊断程序,经过不断的录入经验,Knowledge Base会变得越来越丰富。结果格式会分为现象描述,原因描述和相关诊断建议。
6c6a739cf88f8382b30fe32aabcfddb10d1280cd

2.离线诊断
离线诊断是基于状态,做深层次的分析,挖掘Top SQL,看哪些SQL执行次数最多,最长,消耗时间最长。另外还有事物分析,看事物是否合理,以及SQL Review。因为我们做DBA,如果没有一个很强大的工具去规范开发人员行为的话,这个工具迟早会被拖垮。在早期的时候,出一份规范发给开发人员,要求搜索语句只能按照规范写,否则会出事。但是如果没有一个工具约束和规范,每个开发团队都不可能看每一条规范语句。还有就是死锁的分析。
2eb372c01dd6cde3a07a712462f68f66bc882652

3.SQL优化
MySQL的优化器当然没有Qracle那么优秀,我们经常会听到它的执行效果不是很好,表的连接顺序不是那么的最优。比如表上面有索引,但是索引失效了,大家都知道索引失效的情况是字段不匹配。我们的工具会帮助我们在字段后面加个函数。比如说有一个交易表,交易表上有一个字段用时间去get,因为目前时间都至少精确到秒。很多开发人员会把日期函数直接加在get上面,等于具体某一天就可以了。但是如果用Oracle或者SQL Server3的数据库是没有问题的,DBA会给你加一个函数索引。但是如果用的是MySQL,而且是5.7之前的版本是没有办法的,真正的写法是大于等于这一天的开始和小于等于这一天的结束,应该是这一天24小时的范围之内都可以识别出来。还有一个是计算代价的重写,我们会到备库动态的采样,比如说一个查询,上面没有索引,带有多个字段,要建一个混合索引,那么这个字段的顺序应该怎么放?我们会到备库中动态采样,看这些列上的数据分布,然后生成最优的字段顺序,最优的索引。因为不可能看几个字段有的所有索引顺序,所以采取动态采样。这一块的内容可以到阿里云的官网搜,有很多非常详细的资料和视频。
1fbc22f201d6357ebfbc3ef2bffa41bad8eb306e

三、最佳实践
我们经常遇到用户把规格升级,然后进行压测,发现升级规格后性能反而下降。比如4C32G生级成了8C62G,发现吞吐下降。通过诊断报告TOP SQL定位性能下降原因。发现truncate的执行时间变慢了,为什么变慢?因为表的内存变多了,内存的张页变多了,MySQL truncate之前是要把张页落入文件里面去,利用我们的工具可以很快的定位原因语句,下一步应该把MySQL的 Max present的参数调小,把张块控制在一定的范围里面。
f1b67c28beea1839cb349239d2a4efe66f8019dd
另外一个问题是用户说每隔半小时就会出现压力抖动,查明什么原因。因为用户提出这个问题时,抖动发生的时间是在前几天或者过了几个小时。所以我们会建议用户开启CloudDBA,这样才方便我们跟踪,具体的数据用户在自己的的控制台就可以看到了。如下图是通过TOP SQL得到的诊断报告,知道哪个时间发生了抖动。
d89a85a16dfd4745b0a576174588699b38b78ee2
连接满了也分为不同的场景。第一种是出现锁了,这种是最常见的,这是把锁会话KILL掉。第二种就是在业务高空的时候执行了ddl的操作,这时也很好解决,我们都会帮助用户定位出来。还有一种是应用程序的连接使用有问题,没有关掉。比如Java的JDBC开了之后没有关掉,这时我们也可以识别出来。我们会建议用户使用连接池,及时的把连接关掉。还有一个,既不是MySQL堆积也不是锁,也正常使用连接池,这时就可能是规格太小,压力太大。如果不能升级规格,那么应用程序就要做限流。
6f1160833a3f40664f8fd94e421a95aff8ff05ee
连接满了之后,CloudDBA可以帮助识别并终止会话。
ffc6fef6068c4d363a546d4cff296be96fe30d0f
CPU达到100%之后,CloudDBA可以帮忙识别出来,同时进行优化
8c8484242ea81d92c6e0f3ebbd7f11c68aab57e6
除了上述的几种场景,阿里还做了一些参数优化。MySQL有非常多的参数,参数的不合理或者准备的延迟都可以通过CloudDBA检测出来。
CloudDBA是一个动态净化的产品,我们是在不断的更新。我们会和阿里云的工单系统联系,他们处理的工单会扭转到我们这边,我们会吸收消化掉一部分,看哪些可以通过程序集成起来,RDBA会嵌在RDS数据库的控制台上面,用户可以免费使用。

本文由云栖志愿小组董黎明整理


相关实践学习
基于CentOS快速搭建LAMP环境
本教程介绍如何搭建LAMP环境,其中LAMP分别代表Linux、Apache、MySQL和PHP。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
3月前
|
SQL 关系型数据库 MySQL
MySQL| 数据库的管理和操作【操作数据库和操作表】【附练习】
MySQL | 数据库的基本操作和表的基本操作【附练习】
|
3月前
|
弹性计算 关系型数据库 MySQL
快速上手阿里云RDS MySQL实例创建,轻松管理数据库
快速上手阿里云RDS MySQL实例创建,轻松管理数据库 在数字化时代,数据已成为企业的核心资产。如何高效、安全地存储和管理这些数据,成为企业在云计算时代亟待解决的问题。阿里云的RDS(关系型数据库服务)应运而生,为用户提供稳定、可靠的云上数据库解决方案。本文将详细介绍如何通过阿里云RDS管理控制台快速创建RDS MySQL实例,让您轻松上手,快速部署数据库。
173 2
|
4月前
|
存储 Oracle 关系型数据库
postgresql数据库|wal日志的开启以及如何管理
postgresql数据库|wal日志的开启以及如何管理
287 0
|
4月前
|
存储 SQL 关系型数据库
Windows server 2016——SQL server 数据库和表的管理
Windows server 2016——SQL server 数据库和表的管理
61 0
|
1月前
|
SQL 安全 数据管理
在阿里云数据管理DMS(Data Management Service)中,您可以按照以下步骤来创建和管理数据库
【2月更文挑战第33天】在阿里云数据管理DMS(Data Management Service)中,您可以按照以下步骤来创建和管理数据库
37 7
|
3月前
|
SQL 关系型数据库 MySQL
MySQL | 数据库的管理和操作【表的增删改查】(一)
MySQL | 数据库的管理和操作【表的增删改查】
|
3月前
|
SQL 关系型数据库 MySQL
MySQL | 数据库的管理和操作【表的增删改查】(二)
MySQL | 数据库的管理和操作【表的增删改查】(二)
|
2月前
|
存储 监控 安全
内网屏幕监控软件的数据存储与管理:使用SQLite数据库保存监控记录和配置信息
在当今数字化时代,安全和监控在企业和组织中变得至关重要。内网屏幕监控软件作为一种关键工具,帮助组织监视员工的活动并确保信息安全。这种软件不仅需要高效地记录和管理监控数据,还需要能够方便地进行配置和调整。本文将讨论如何使用SQLite数据库来保存监控记录和配置信息,并介绍如何通过自动化机制将监控到的数据提交到指定网站。
165 2
|
1月前
|
NoSQL 关系型数据库 Linux
Star 1.6k!当Web遇上Linux和数据库!一站式管理平台的开源之旅!
Star 1.6k!当Web遇上Linux和数据库!一站式管理平台的开源之旅!
|
1月前
|
存储 关系型数据库 MySQL

热门文章

最新文章