数据库智能管理助手-CloudDBA

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介: 阿里云CloudDBA主要分为离线分析和在线分析两种功能。帮助用户节省成本,定位问题,分析原因并推荐解决方法。CloudDBA可以做到实时诊断,离线诊断和SQL优化。并且通过MySQL的参数调优,检测参数的不合理或者准备的延迟的情况。
摘要:阿里云CloudDBA主要分为离线分析和在线分析两种功能。帮助用户节省成本,定位问题,分析原因并推荐解决方法。CloudDBA可以做到实时诊断,离线诊断和SQL优化。并且通过MySQL的参数调优,检测参数的不合理或者准备的延迟的情况。

演讲嘉宾简介:
勋臣,阿里云RDS内核团队技术专家,目前阿里云CloudDBA专家系统开发。有着丰富的数据库开发管理和优化的经验。

以下内容根据演讲嘉宾视频分享以及PPT整理而成。

本次的分享主要围绕以下三个方面:

一、CloudDBA提供了什么
二、核心能力
三、典型实践应用

一、CloudDBA提供了什么
CloudDBA主要提供了两个功能,一个是离线分析,另一个是在线分析。我们知道DBA主要日常工作分为两块,一个是群检,还有就是做线上的响应,比如说我的数据库突然一下应用被卡住了,或者数据库出现性能抖动,这些问题都是需要DBA实时响应的。Oracle包括两个报告,一个是AWR报告,还有一个叫ASH报告,我们从功能上来说和Oracle有些类似。离线的分析主要是AWR报告,然后在线响应是ACTIVE SESS HISTORY。
CloudDBA在云上是SASS化的一块,是基于PaaS平台的增值服务。云上的SASS需要去解决性能的问题,问题的诊断,以及提供一些辅助的工具。云上的数据库跟自建的数据库有一点不同,如果数据库上云了之后,PaaS这层的工作云都帮忙解决了。比如,性能监控,HA等都已经做了。DBA真正要做的是上面这一层,就是怎么让数据库运行的更好,让用户用好数据库。
2521334038231db047dc4cd8379e498aa479c515
不管是云上的还是自建的数据库,它本身的成本实际上是看得见的,是很低的。对做DBA的同学来说,从准备到数据库上线花费的精力实际上是有限的。而真正的难点是如何把数据库管理好?因为我们为做产品的平台应用提供支撑,如果用户的使用习惯不好,很容易将我们的数据库搞坏掉,整个业务都会受到影响。所以从下图可以看到我们的数据库会有大量的维护成本,大概大于80%。当然DBA主要是解决应用中的一些问题,节省时间成本。比如说,用户反馈说应用卡住了,对DBA来说需要登录到数据库中,到控制台看动画,看看到底发生了什么?这些动作实际上是很重复,很机械的、如果有CloudDBA,它会有自己的一些小的脚本,比如定位问题,很快的可以输入用户名密码,把状态抓出来,基于状态做一些判断。这种方式是可以的,但是还有更好的解决方式,如果作为一个产品,把这样的行为产品化和服务化,交付出来。在应用卡住的时候,用户只需要点一个按钮,产品就可以把状态抓出来,并且分析出数据库卡住的点,并给出下一步的解决建议。甚至绝大部分场景,命令都会给生成出来,用户直接复制执行就可以了。
65af07a9a7c42cc6027401508cce6e6280737726

二、核心能力
1.实时诊断
我们会把DBA积累的经验产品化,编成程序,录入到资料库中去。将诊断的结果进行输出。我们在日常工作当中会经常发现同样的问题对不同的DBA来说解决的方式也不同。甚至说一位同学在当值班的时候遇到问题,知道怎么解决了,换另一位同学指班没有遇到问题,过了很长的时间再一次发生时大家可能都忘了如何解决这个问题。所以这时就需要将工作经验进行沉淀,产品化,服务化,再把它输入出来。我们把解决问题的方法。技巧,经验录入到资料库(Knowledge Base)中,它就是一个诊断程序,经过不断的录入经验,Knowledge Base会变得越来越丰富。结果格式会分为现象描述,原因描述和相关诊断建议。
6c6a739cf88f8382b30fe32aabcfddb10d1280cd

2.离线诊断
离线诊断是基于状态,做深层次的分析,挖掘Top SQL,看哪些SQL执行次数最多,最长,消耗时间最长。另外还有事物分析,看事物是否合理,以及SQL Review。因为我们做DBA,如果没有一个很强大的工具去规范开发人员行为的话,这个工具迟早会被拖垮。在早期的时候,出一份规范发给开发人员,要求搜索语句只能按照规范写,否则会出事。但是如果没有一个工具约束和规范,每个开发团队都不可能看每一条规范语句。还有就是死锁的分析。
2eb372c01dd6cde3a07a712462f68f66bc882652

3.SQL优化
MySQL的优化器当然没有Qracle那么优秀,我们经常会听到它的执行效果不是很好,表的连接顺序不是那么的最优。比如表上面有索引,但是索引失效了,大家都知道索引失效的情况是字段不匹配。我们的工具会帮助我们在字段后面加个函数。比如说有一个交易表,交易表上有一个字段用时间去get,因为目前时间都至少精确到秒。很多开发人员会把日期函数直接加在get上面,等于具体某一天就可以了。但是如果用Oracle或者SQL Server3的数据库是没有问题的,DBA会给你加一个函数索引。但是如果用的是MySQL,而且是5.7之前的版本是没有办法的,真正的写法是大于等于这一天的开始和小于等于这一天的结束,应该是这一天24小时的范围之内都可以识别出来。还有一个是计算代价的重写,我们会到备库动态的采样,比如说一个查询,上面没有索引,带有多个字段,要建一个混合索引,那么这个字段的顺序应该怎么放?我们会到备库中动态采样,看这些列上的数据分布,然后生成最优的字段顺序,最优的索引。因为不可能看几个字段有的所有索引顺序,所以采取动态采样。这一块的内容可以到阿里云的官网搜,有很多非常详细的资料和视频。
1fbc22f201d6357ebfbc3ef2bffa41bad8eb306e

三、最佳实践
我们经常遇到用户把规格升级,然后进行压测,发现升级规格后性能反而下降。比如4C32G生级成了8C62G,发现吞吐下降。通过诊断报告TOP SQL定位性能下降原因。发现truncate的执行时间变慢了,为什么变慢?因为表的内存变多了,内存的张页变多了,MySQL truncate之前是要把张页落入文件里面去,利用我们的工具可以很快的定位原因语句,下一步应该把MySQL的 Max present的参数调小,把张块控制在一定的范围里面。
f1b67c28beea1839cb349239d2a4efe66f8019dd
另外一个问题是用户说每隔半小时就会出现压力抖动,查明什么原因。因为用户提出这个问题时,抖动发生的时间是在前几天或者过了几个小时。所以我们会建议用户开启CloudDBA,这样才方便我们跟踪,具体的数据用户在自己的的控制台就可以看到了。如下图是通过TOP SQL得到的诊断报告,知道哪个时间发生了抖动。
d89a85a16dfd4745b0a576174588699b38b78ee2
连接满了也分为不同的场景。第一种是出现锁了,这种是最常见的,这是把锁会话KILL掉。第二种就是在业务高空的时候执行了ddl的操作,这时也很好解决,我们都会帮助用户定位出来。还有一种是应用程序的连接使用有问题,没有关掉。比如Java的JDBC开了之后没有关掉,这时我们也可以识别出来。我们会建议用户使用连接池,及时的把连接关掉。还有一个,既不是MySQL堆积也不是锁,也正常使用连接池,这时就可能是规格太小,压力太大。如果不能升级规格,那么应用程序就要做限流。
6f1160833a3f40664f8fd94e421a95aff8ff05ee
连接满了之后,CloudDBA可以帮助识别并终止会话。
ffc6fef6068c4d363a546d4cff296be96fe30d0f
CPU达到100%之后,CloudDBA可以帮忙识别出来,同时进行优化
8c8484242ea81d92c6e0f3ebbd7f11c68aab57e6
除了上述的几种场景,阿里还做了一些参数优化。MySQL有非常多的参数,参数的不合理或者准备的延迟都可以通过CloudDBA检测出来。
CloudDBA是一个动态净化的产品,我们是在不断的更新。我们会和阿里云的工单系统联系,他们处理的工单会扭转到我们这边,我们会吸收消化掉一部分,看哪些可以通过程序集成起来,RDBA会嵌在RDS数据库的控制台上面,用户可以免费使用。

本文由云栖志愿小组董黎明整理


相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
3月前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
|
2月前
|
存储 人工智能 数据管理
|
28天前
|
移动开发 监控 关系型数据库
使用云数据库RDS和低代码开发平台“魔笔”,高效构建门户网站,完成任务领智能台灯!
使用云数据库RDS和低代码开发平台“魔笔”,高效构建门户网站,完成任务领智能台灯!
|
1月前
|
存储 人工智能 数据管理
媒体声音|专访阿里云数据库周文超博士:AI就绪的智能数据平台设计思路
在生成式AI的浪潮中,数据的重要性日益凸显。大模型在实际业务场景的落地过程中,必须有海量数据的支撑:经过训练、推理和分析等一系列复杂的数据处理过程,才能最终产生业务价值。事实上,大模型本身就是数据处理后的产物,以数据驱动的决策与创新需要通过更智能的平台解决数据多模处理、实时分析等问题,这正是以阿里云为代表的企业推动 “Data+AI”融合战略的核心动因。
|
2月前
|
人工智能 容灾 关系型数据库
【AI应用启航workshop】构建高可用数据库、拥抱AI智能问数
12月25日(周三)14:00-16:30参与线上闭门会,阿里云诚邀您一同开启AI应用实践之旅!
|
4月前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
阿里云瑶池在2024云栖大会上重磅发布由Data+AI驱动的多模数据管理平台DMS:OneMeta+OneOps,通过统一、开放、多模的元数据服务实现跨环境、跨引擎、跨实例的统一治理,可支持高达40+种数据源,实现自建、他云数据源的无缝对接,助力业务决策效率提升10倍。
|
5月前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
阿里云数据库重磅升级!元数据服务OneMeta + OneOps统一管理多模态数据
|
7月前
|
SQL 自然语言处理 网络协议
【Linux开发实战指南】基于TCP、进程数据结构与SQL数据库:构建在线云词典系统(含注册、登录、查询、历史记录管理功能及源码分享)
TCP(Transmission Control Protocol)连接是互联网上最常用的一种面向连接、可靠的、基于字节流的传输层通信协议。建立TCP连接需要经过著名的“三次握手”过程: 1. SYN(同步序列编号):客户端发送一个SYN包给服务器,并进入SYN_SEND状态,等待服务器确认。 2. SYN-ACK:服务器收到SYN包后,回应一个SYN-ACK(SYN+ACKnowledgment)包,告诉客户端其接收到了请求,并同意建立连接,此时服务器进入SYN_RECV状态。 3. ACK(确认字符):客户端收到服务器的SYN-ACK包后,发送一个ACK包给服务器,确认收到了服务器的确
220 1
|
8月前
|
NoSQL Redis 数据库
docker-compose 自动管理 数据库
docker-compose 自动管理 数据库
248 3
|
9月前
|
JavaScript Java 关系型数据库
卤菜销售|基于SSM+vue的智能卤菜销售平台的设计与实现(源码+数据库+文档)
卤菜销售|基于SSM+vue的智能卤菜销售平台的设计与实现(源码+数据库+文档)
108 15

热门文章

最新文章