开发者学堂课程【企业运维训练营之数据库原理与实践课程 :视频 -RDS 常见问题排除及 DAS 自动弹性伸缩(一)】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/1201/detail/18302
视频 -RDS 常见问题排除及 DAS 自动弹性伸缩
内容介绍:
一:前期课程回顾
二:本次课程的简要介绍
三:三大场景介绍
四:DAS 自动弹性伸缩讲解
五:本次课程回顾
一:前期课程回顾
我们开始今天的本次数据库训练营的第4讲。首先我做自我介绍,我是本次数据库训练营第4讲讲师静敏,之前第一课我已经和大家见过面。本次我们的数据库训练营到目前为止已经过半。在本次课程开始之前,我先给大家做一个简单的快速回顾。回顾我们前三次课程学习的内容。
在第一次课程中,我们介绍了RDS 的基础概念。介绍了 RDS 是一种关系型数据库,它包含四种数据库引擎。产品系列上又包括了基础版、高可用版和集群版,390 企业版。规格包括共享型、通用型、独享型。我们的不同的产品系列和规格,又支持不同的引擎,这些是有一定的差异。和大家重点强调了稳定性要求较高的生产环境中,建议使用独享型规格。网络类型我们目前 RDS 上有使用经典网络和专业网络,介绍了在我们今年下半年前段时间也推动了在经典网络的下线。后续建议大家也是逐步向专业网络上靠近,因为它可以提高我们网络安全性。以及给大家介绍一个我们 RDS 的通过域名时的一个访问链路,介绍存储上的 RDS 存储的发展历史,经历了从本地 SSD 盘到 SSD 云盘,再到我们现在的 ESSD 增强巡云盘,介绍了每种磁盘类型的优缺点,介绍我们的 RDS 的安全防护比如账号密码安全组、白名单存储加密等。
这里我和大家再补充,当我们开通比如 TD 存储加密后,可能读写性能由于加密的动作会导致我们可能这种读写 SQL 执行效率会有一些减退。大家去开通 TD 也是需要再在开通之前做一个考虑,最好做一些相应的压测,看一下是否符合预期。在 RDS 整体架构上和大家介绍了 HA 的探测模块,建议大家在生产环境中要尽量避免大事物的操作,比如批量更新,大量的数据等。最后带大家初始了RDS 的控制台,这是我们第一节课给大家重点介绍的一些内容。在第二次课程中,奎鑫老师给大家介绍了我们的 AliSQL,也就是 RD MYSI、 RDS Mysql 的一些核心功能。介绍了 AliSQL 从性能、稳定性功能方面做的改进和突破。比如在功能上,我们的 native flashback 可以提供一种额外的快速恢复的方案。我们的线参词功能也实现了不同类型 SQL 操作的一个优先级并发控制机制,将连接数始终保持在最佳连接数附近,提高数据库的一个高并发时的稳定性。
在性能方面,比如 Binlog in Redo 的实能够实现减少了 IO 次数,来提升数据库的一个写入性能。比如我们的 inventory hint,使用排队和事务性 hint 来控制并发和快速提交回滚事务,在高并发的如秒杀场景的下,能够帮我们提高一个事物的处理的效率。
在稳定性方面,比如像我们 fast DDL,它优化了 DDL 操作过程中的 buffer pull 的一个管理机制,降低了 DDL 操作带来的性能影响,提升了我们做在线 DDL 时的稳定性,这里我们后面奎鑫老师也给大家介绍了一个关于读写分离,这里也跟大家再次强调。在我们遇到读写分离时,如果想要保证业务的有强一致性读要求的时候,目前可以采用两种方案。在方案1,我们可以把读请求放在事务中,且放在第一条语句写语句之前,类似业务逻辑,如果是先查后写的这种强一致性读,就可关闭我们的读写分理功能的事务拆分。这时事务中的所有语句都会路由给主库,但是要小心框架默认语句都是开启事务的情况下,导致全部语句都打到主库上。方案 2 是直接对这种强一致性要求的读,在语句上加上一个 HINT 指定 false master 去强制主库读。无论是方案 1 还是方案2,我们都可把这个读请求走到主库查询,解决这种强一致性读的问题。
在介绍了前面的AliSQL 和读写分离工作后,在我们的第三课时红颜老师给大家带来了关于 DMS 数据管理模块的一个功能,里面我们可以实现比如无锁表结构变更,可以对这种安全性有要求的做一些变更审批,来够方便我们做一个平常的数据库的运维管理的工作。
二:本次课程的简要介绍
现在就开始正式开始我们第四次课程的内容。第四次课的内容主要是两个部分,一个是云 RDS 数据库的一个常见问题的讲解,另一个是 DAS 自带弹性伸缩,这里面也会包含一次实验。在我们日常在接触大量客户反馈的问题过程中,通过分析在使用云上 RDS 数据库中高频反馈问题,我提炼了 3 个比较突出的问题场景,本次就围绕这 3 个场景来跟大家介绍这类问题的一个自助排查定位问题的方法,或者是后续大家遇到这类问题时,可以能够提前收集到一些相关的信息,方便后续比如提交工单的时候,能够让我们快速协助定位问题。因为有些场景它并不一定能够稳定复现,所以及时地收集相关信息能够让我们在之后能够提供强有力的帮助,去快速地去定位这种问题。
在场景1中,我们将介绍一个连接类的问题。对连接类的问题基本分为两类,一种是比如连接不上,或者第二类可能连接报错。比如不知道这种屏幕前的小伙伴有没有遇到过,比如我们购买一台 ECS 去连接我们的 RDS,却发现无法连接。大家可以思考,在我们云上访问 RDS 数据库出现这个情况,可能是什么原因引起?或者我们程序运行了一段时间,突然出现连接不上,或者偶尔连接报错的这种场景,此时我们又该如何定位呢?通过本次介绍,希望大家能够明白引起连接问题可能的因素。通过对常见排查连接问题的命令介绍和演示,大家能够对常见连接做一个定界,知道问题大概出在哪个环节,特别是偶发场景比如连接报错,偶尔连接不上,能够提前部署抓包复,现时能够提供相关报文给我们。在场景2中,我们先介绍尺度实例复制延迟的场景。在我们的关系型数据库中,我们大多时候都是这种读多写少的场景。在我们的课程1和课程 2 也得有相应的提到相关的。我们的 RDS 可以是通过增加只读实例,开通代理来实现一个读写分离的功能,对我们复制原理和复制架构已有介绍。针对这种增加子读节点之后可能会出现这种复制延迟的场景。我们如何快速定位引起复制延迟的原因?生产中如何尽量避免复制延迟?通过这个场景的介绍,能够让大家进一步加深复制原理,知道一起复制延迟的常见原因分类,能够判断常见引起复制延迟的原因。
在场景3中,这是我们平常在处理客户问题的时候经常会遇到的一个关于 CPU 或者 IO 或者我们的活跃会话突增的问题,这里重点介绍 DAS 自治服务异常检测的功能。希望后续大家在遇到这一类问题时,能够更多的利用我们 DAS 自治服务异常检测能够去自我定位,排查相关类型的问题。