企业运维训练营之数据库原理与实践—RDS常见问题排除及DAS自动弹性伸缩—RDS常见问题排除及DAS自动弹性伸缩(下)

本文涉及的产品
RDS AI 助手,专业版
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
简介: 企业运维训练营之数据库原理与实践—RDS常见问题排除及DAS自动弹性伸缩—RDS常见问题排除及DAS自动弹性伸缩(下)

接上篇:https://developer.aliyun.com/article/new/supportservice?spm=a2c6h.12873639.article-detail.6.21741b67F3verg&publish=1224221#/?_k=6u4bk3image.png

 

上图为异常快照页面,能够查看异常指标分析,也可以查看所有指标。

 

然后进入之后也会展示会话快照的信息。

 

image.png

 

如上图,可以重点关注在某个时间段哪些SQL执行比较多、SQL执行量较多的占比是多少、平均执行时长是多少,可以对关注项进行排序。

 

操作栏点击复制样本,可以复制具体样本的SQL,点击优化可以查看优化后的执行计划,能够快速地判断SQL是否有问题,点击限流可以将SQL加入限流模板,后面遇到此类SQL会进行限流。

 

image.png

 

事务与锁快照能够展示元数据锁的信息,事务持续时间超过15秒会被记录,锁等待超过5秒也会被记录。

 

因此遇到锁类的问题时,也可以通过此模块快速查看问题。

 

image.png

 

慢日志统计页面记录了慢日志统计与慢日志明细,也包含异常时间段内相应的信息。可以通过排序的方式快速找到信息,也可以进行样本优化与限流。

 

image.png

 

根因分析页面会展示SQL的执行次数、平均执行时间、最大执行时间等,并给优化建议。

 

image.png

 

诊断出异常时,也可以通过配置优化与限流措施解决问题。比如平常默认仅SQL诊断,也可以选择SQL诊断并自动创建索引。但CPU正打高时不会执行DDL,需要等到实例运维时间段才会执行。因此此时添加索引并不能解决当下的问题的。针对CPU打高等问题,建议勾选“同时kill执行中的异常SQL”,先快速恢复,后面再添加索引。

 

也可以指定CPU大于多少/活跃会话大于某个阈值时自动限流,指定限流时间段,下次遇到时同类SQL时可进行相应的限流措施。

 

image.png

 

比如遇到了连接数打高-元数据锁阻塞,根因分析列表里会显示有SQL处于等待元数据锁的状态。

 

image.png

 

内存异常的根因分析页面会列出异常SQL列表,可以根据反馈的SQL在后续操作中重点关注,如果是规格太低则会推荐相应规格,也可以考虑是否升级规格。

 

image.png 

 

异常事件发生后,可以在自治中心选择时间段看查看异常事件。也可以通过配置订阅、选择相应的联系人进行告警,以便责任人第一时间收到告警,及时核实处理。

 

image.png

 

自建库往往需要提前规划好未来几年的业务容量,购买相应硬件。但使用云上RDS数据库的优势在于可以将底层资源看作资源池,可以随时发起变配操作。同时,可以通过DAS自动检测资源,并自动进行扩容,减少人为操作,能够简化日常管理。

上图展示了DAS自动伸缩分类,RDS支持的扩容主要有规格扩容、存储扩容,秒级扩核以及serverless。

 

规格扩容会有闪断的,而且只支持云盘实例,只支持MySQL的新架构实例。新架构实例指基于K8S形态部署的形态,对实例的稳定性能提供更好的支撑。

 

存储扩容仅支持ESSD云盘,不支持回缩。

 

秒级扩核的原理是与规格相关联,只支持本地通用型实例。通用型实例没有做硬性CPU绑定,因此可能存在CPU竞争。但其优势在于可以随时通过将底层的cgroup放开,快速升级核数,能够实现秒级扩核,也没有闪断,可以自动回缩。

 

Serverless是计算与存储全弹性的,仅支持云盘。

 

image.png

 

规格扩容需要指定观察窗口,观察窗口CPU利用率大于设定的阈值会触发扩容。如果扩容后平均值依然大于阈值,会继续扩容,但是扩容的规格不会超过设置的规格上限。

 

基本信息设置这里无法设置回缩配置,需要在DAS自治功能开关进行配置。

 

image.png

 

磁盘打满时,实例会变为只读,不再提供写的功能了。对于云盘类型的实例,可以设置存储扩容,通过指定上限避免存储扩得太大。

 

image.png

 

秒级扩核可以设置扩容观测窗口、CPU出发阈值以及回缩观测窗口。底层直接改cgroup,因此业务无感。

 

image.png

 

可以配置弹性策略模板,将模板批量应用到多个实例上,避免挨个配置的重复劳动。

 

目前有两种弹性策略:

 

基于预测的自动弹性伸缩:以过去10天的历史数据预测未来24小时的指标。仅预测,不执行,只给出扩容建议,不执行扩容动作。

 

定时自动弹性伸缩:适用于周期性负载的业务,比如每天早上 9 点到下午 6 点是业务高峰,可以配置定时自动弹性设备,指定每天在该时间段做一次变配。

 

image.png

 

上图为自动弹性伸缩配置详情页。包含应用策略名、原规格、目标规格、开始时间、结束时间。

 

image.png

 

上图左侧为预测型的弹性策略,预测频率为每天一次,在0-1点根据过去10天的历史数据进行未来24h的预测。目前,预测型仅支持CPU,比如CPU配置为80%,如果预测到未来20小时将超过80%,会给出扩容建议。

 

定时自动伸缩只支持共享型云盘实例,包括执行的具体操作、生效时间、重复周期、开始时间、持续时间等。

 

image.png

 

image.png

 

设置定时弹性伸缩有两种方式,其一为RDS控制台-自治中心,其二为DAS控制台-管理与设置。

 

image.png

 

DAS目前支持高可用云盘、高可用本地盘以及三节点企业版,但本地盘只能扩CPU和IOPS,不能扩内存。而云盘可以扩规格,也可以在配置时指定扩容的规格,配置路径为一键诊断-自治中心-自治功能开关。

 

image.png

 

在自治功能管理里面可以勾选自动弹性扩展,指定CPU大于某个值时做扩容,指定观察窗口期、是否要需要回缩、静默周期等。

 

image.png

 

本地盘则没有指定规格选项,因为只是扩CPUIOPS,主要通过CPU的指标判断是否需要扩核。

 

相关文章
|
3月前
|
存储 人工智能 运维
日志服务&云监控全新发布,共筑企业智能运维新范式
阿里云推出Operation Intelligence新范式,通过日志服务SLS与云监控2.0,实现从感知、认知到行动闭环,推动运维迈向自决策时代。
343 1
日志服务&云监控全新发布,共筑企业智能运维新范式
|
3月前
|
运维 Prometheus 监控
别再“亡羊补牢”了!——聊聊如何优化企业的IT运维监控架构
别再“亡羊补牢”了!——聊聊如何优化企业的IT运维监控架构
181 8
|
4月前
|
存储 人工智能 运维
从“看得见”到“能决策”:Operation Intelligence 重构企业智能运维新范式
从 Observability 到 Operation Intelligence,日志服务 SLS 与云监控 2.0 协力之下,为企业打造高效、稳定、智能运营的数字化中枢,让复杂系统变得可视、可管、可优。
|
4月前
|
运维 Linux 网络安全
自动化真能省钱?聊聊运维自动化如何帮企业优化IT成本
自动化真能省钱?聊聊运维自动化如何帮企业优化IT成本
170 4
|
5月前
|
机器学习/深度学习 人工智能 运维
企业韧性靠“熬”吗?不,智能运维才是真底牌!
企业韧性靠“熬”吗?不,智能运维才是真底牌!
164 0
|
6月前
|
传感器 人工智能 运维
AI驱动的智能设备健康评估系统究竟如何应对企业运维挑战?
AI驱动的智能设备健康评估系统通过人工智能技术实现设备状态的主动监测和预测性维护。该系统由Prompt规则库、评估任务触发机制、Agent执行等核心组件构成,能够自动获取数据、智能分析设备状态并生成可视化报告。相比传统运维方式,系统具有规则灵活定义、低成本集成、高阶智能分析等优势,适用于能耗监测、异常检测、预测性维护等多种工业场景。产品专家三桥君通过详细解析系统工作流程和实际案例,展示了如何帮助企业实现从"事后维护"到"预测性运维"的智能化转型。
353 0
|
4月前
|
缓存 关系型数据库 BI
使用MYSQL Report分析数据库性能(下)
使用MYSQL Report分析数据库性能
423 158
|
4月前
|
关系型数据库 MySQL 数据库
自建数据库如何迁移至RDS MySQL实例
数据库迁移是一项复杂且耗时的工程,需考虑数据安全、完整性及业务中断影响。使用阿里云数据传输服务DTS,可快速、平滑完成迁移任务,将应用停机时间降至分钟级。您还可通过全量备份自建数据库并恢复至RDS MySQL实例,实现间接迁移上云。
|
4月前
|
关系型数据库 MySQL 数据库
阿里云数据库RDS费用价格:MySQL、SQL Server、PostgreSQL和MariaDB引擎收费标准
阿里云RDS数据库支持MySQL、SQL Server、PostgreSQL、MariaDB,多种引擎优惠上线!MySQL倚天版88元/年,SQL Server 2核4G仅299元/年,PostgreSQL 227元/年起。高可用、可弹性伸缩,安全稳定。详情见官网活动页。
935 152