企业运维训练营之数据库原理与实践—RDS常见问题排除及DAS自动弹性伸缩—RDS常见问题排除及DAS自动弹性伸缩(下)

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介: 企业运维训练营之数据库原理与实践—RDS常见问题排除及DAS自动弹性伸缩—RDS常见问题排除及DAS自动弹性伸缩(下)

接上篇:https://developer.aliyun.com/article/new/supportservice?spm=a2c6h.12873639.article-detail.6.21741b67F3verg&publish=1224221#/?_k=6u4bk3image.png

 

上图为异常快照页面,能够查看异常指标分析,也可以查看所有指标。

 

然后进入之后也会展示会话快照的信息。

 

image.png

 

如上图,可以重点关注在某个时间段哪些SQL执行比较多、SQL执行量较多的占比是多少、平均执行时长是多少,可以对关注项进行排序。

 

操作栏点击复制样本,可以复制具体样本的SQL,点击优化可以查看优化后的执行计划,能够快速地判断SQL是否有问题,点击限流可以将SQL加入限流模板,后面遇到此类SQL会进行限流。

 

image.png

 

事务与锁快照能够展示元数据锁的信息,事务持续时间超过15秒会被记录,锁等待超过5秒也会被记录。

 

因此遇到锁类的问题时,也可以通过此模块快速查看问题。

 

image.png

 

慢日志统计页面记录了慢日志统计与慢日志明细,也包含异常时间段内相应的信息。可以通过排序的方式快速找到信息,也可以进行样本优化与限流。

 

image.png

 

根因分析页面会展示SQL的执行次数、平均执行时间、最大执行时间等,并给优化建议。

 

image.png

 

诊断出异常时,也可以通过配置优化与限流措施解决问题。比如平常默认仅SQL诊断,也可以选择SQL诊断并自动创建索引。但CPU正打高时不会执行DDL,需要等到实例运维时间段才会执行。因此此时添加索引并不能解决当下的问题的。针对CPU打高等问题,建议勾选“同时kill执行中的异常SQL”,先快速恢复,后面再添加索引。

 

也可以指定CPU大于多少/活跃会话大于某个阈值时自动限流,指定限流时间段,下次遇到时同类SQL时可进行相应的限流措施。

 

image.png

 

比如遇到了连接数打高-元数据锁阻塞,根因分析列表里会显示有SQL处于等待元数据锁的状态。

 

image.png

 

内存异常的根因分析页面会列出异常SQL列表,可以根据反馈的SQL在后续操作中重点关注,如果是规格太低则会推荐相应规格,也可以考虑是否升级规格。

 

image.png 

 

异常事件发生后,可以在自治中心选择时间段看查看异常事件。也可以通过配置订阅、选择相应的联系人进行告警,以便责任人第一时间收到告警,及时核实处理。

 

image.png

 

自建库往往需要提前规划好未来几年的业务容量,购买相应硬件。但使用云上RDS数据库的优势在于可以将底层资源看作资源池,可以随时发起变配操作。同时,可以通过DAS自动检测资源,并自动进行扩容,减少人为操作,能够简化日常管理。

上图展示了DAS自动伸缩分类,RDS支持的扩容主要有规格扩容、存储扩容,秒级扩核以及serverless。

 

规格扩容会有闪断的,而且只支持云盘实例,只支持MySQL的新架构实例。新架构实例指基于K8S形态部署的形态,对实例的稳定性能提供更好的支撑。

 

存储扩容仅支持ESSD云盘,不支持回缩。

 

秒级扩核的原理是与规格相关联,只支持本地通用型实例。通用型实例没有做硬性CPU绑定,因此可能存在CPU竞争。但其优势在于可以随时通过将底层的cgroup放开,快速升级核数,能够实现秒级扩核,也没有闪断,可以自动回缩。

 

Serverless是计算与存储全弹性的,仅支持云盘。

 

image.png

 

规格扩容需要指定观察窗口,观察窗口CPU利用率大于设定的阈值会触发扩容。如果扩容后平均值依然大于阈值,会继续扩容,但是扩容的规格不会超过设置的规格上限。

 

基本信息设置这里无法设置回缩配置,需要在DAS自治功能开关进行配置。

 

image.png

 

磁盘打满时,实例会变为只读,不再提供写的功能了。对于云盘类型的实例,可以设置存储扩容,通过指定上限避免存储扩得太大。

 

image.png

 

秒级扩核可以设置扩容观测窗口、CPU出发阈值以及回缩观测窗口。底层直接改cgroup,因此业务无感。

 

image.png

 

可以配置弹性策略模板,将模板批量应用到多个实例上,避免挨个配置的重复劳动。

 

目前有两种弹性策略:

 

基于预测的自动弹性伸缩:以过去10天的历史数据预测未来24小时的指标。仅预测,不执行,只给出扩容建议,不执行扩容动作。

 

定时自动弹性伸缩:适用于周期性负载的业务,比如每天早上 9 点到下午 6 点是业务高峰,可以配置定时自动弹性设备,指定每天在该时间段做一次变配。

 

image.png

 

上图为自动弹性伸缩配置详情页。包含应用策略名、原规格、目标规格、开始时间、结束时间。

 

image.png

 

上图左侧为预测型的弹性策略,预测频率为每天一次,在0-1点根据过去10天的历史数据进行未来24h的预测。目前,预测型仅支持CPU,比如CPU配置为80%,如果预测到未来20小时将超过80%,会给出扩容建议。

 

定时自动伸缩只支持共享型云盘实例,包括执行的具体操作、生效时间、重复周期、开始时间、持续时间等。

 

image.png

 

image.png

 

设置定时弹性伸缩有两种方式,其一为RDS控制台-自治中心,其二为DAS控制台-管理与设置。

 

image.png

 

DAS目前支持高可用云盘、高可用本地盘以及三节点企业版,但本地盘只能扩CPU和IOPS,不能扩内存。而云盘可以扩规格,也可以在配置时指定扩容的规格,配置路径为一键诊断-自治中心-自治功能开关。

 

image.png

 

在自治功能管理里面可以勾选自动弹性扩展,指定CPU大于某个值时做扩容,指定观察窗口期、是否要需要回缩、静默周期等。

 

image.png

 

本地盘则没有指定规格选项,因为只是扩CPUIOPS,主要通过CPU的指标判断是否需要扩核。

 

相关文章
|
3天前
|
存储 弹性计算 运维
云端问道 7 期实践教学-使用操作系统智能助手 OS Copilot 轻松运维与编程
使用操作系统智能助手 OS Copilot 轻松运维与编程
26 14
|
5天前
|
运维 监控 Cloud Native
云原生之运维监控实践:使用 taosKeeper 与 TDinsight 实现对 时序数据库TDengine 服务的监测告警
在数字化转型的过程中,监控与告警功能的优化对保障系统的稳定运行至关重要。本篇文章是“2024,我想和 TDengine 谈谈”征文活动的三等奖作品之一,详细介绍了如何利用 TDengine、taosKeeper 和 TDinsight 实现对 TDengine 服务的状态监控与告警功能。作者通过容器化安装 TDengine 和 Grafana,演示了如何配置 Grafana 数据源、导入 TDinsight 仪表板、以及如何设置告警规则和通知策略。欢迎大家阅读。
23 0
|
1月前
|
运维 监控 持续交付
自动化运维在现代数据中心的应用与实践####
本文探讨了自动化运维技术在现代数据中心中的应用现状与实践案例,分析了其如何提升运维效率、降低成本并增强系统稳定性。通过具体实例,展示了自动化工具如Ansible、Puppet及Docker在环境配置、软件部署、故障恢复等方面的实际应用效果,为读者提供了一套可参考的实施框架。 ####
|
1月前
|
运维 监控 Devops
自动化运维实践:打造高效的DevOps流水线
在软件开发的快节奏中,自动化运维成为提升效率、确保质量的关键。本文将引导你理解自动化运维的价值,通过实际案例分享如何构建一个高效、可靠的DevOps流水线。我们将从持续集成(CI)开始,逐步深入到持续部署(CD),并展示代码示例来具体说明。准备好让你的运维工作飞跃式进步了吗?让我们开始吧!
|
1月前
|
人工智能 运维 自然语言处理
智能化运维:AI在IT运维领域的深度应用与实践####
本文探讨了人工智能(AI)技术在IT运维领域的深度融合与实践应用,通过分析AI驱动的自动化监控、故障预测与诊断、容量规划及智能决策支持等关键方面,揭示了AI如何赋能IT运维,提升效率、降低成本并增强系统稳定性。文章旨在为读者提供一个关于AI在现代IT运维中应用的全面视角,展示其实际价值与未来发展趋势。 ####
172 4
|
1月前
|
机器学习/深度学习 数据采集 人工智能
智能化运维在企业IT管理中的应用与实践####
本文深入探讨了智能化运维(AIOps)的核心技术原理,通过对比传统运维模式,揭示了AIOps如何利用大数据、机器学习等先进技术提升故障预测准确性、优化资源分配及自动化处理流程。同时,文章详细阐述了智能化运维平台的实施步骤,包括数据收集与分析、模型训练与部署、以及持续监控与优化,旨在为企业IT部门提供一套切实可行的智能化转型路径。最后,通过几个典型应用案例,如某大型电商平台的智能告警系统和金融企业的自动化故障排查流程,直观展示了智能化运维在实际业务场景中的显著成效,强调了其在提升运维效率、降低运营成本方面的关键作用。 ####
51 4
|
1月前
|
数据采集 机器学习/深度学习 人工智能
智能运维在IT管理中的实践与探索
【10月更文挑战第21天】 本文深入探讨了智能运维(AIOps)技术在现代IT管理中的应用,通过分析其核心组件、实施策略及面临的挑战,揭示了智能运维如何助力企业实现自动化监控、故障预测与快速响应,从而提升整体运维效率与系统稳定性。文章还结合具体案例,展示了智能运维在实际环境中的显著成效。
59 4
|
17天前
|
运维 关系型数据库 MySQL
自建数据库迁移到云数据库RDS
本次课程由阿里云数据库团队的凡珂分享,主题为自建数据库迁移至云数据库RDS MySQL版。课程分为四部分:1) 传统数据库部署方案及痛点;2) 选择云数据库RDS MySQL的原因;3) 数据库迁移方案和产品选型;4) 线上活动与权益。通过对比自建数据库的局限性,介绍了RDS MySQL在可靠性、安全性、性价比等方面的优势,并详细讲解了使用DTS(数据传输服务)进行平滑迁移的步骤。此外,还提供了多种优惠活动信息,帮助用户降低成本并享受云数据库带来的便利。
|
5月前
|
关系型数据库 MySQL 数据库
RDS MySQL灾备服务协同解决方案构建问题之数据库备份数据的云上云下迁移如何解决
RDS MySQL灾备服务协同解决方案构建问题之数据库备份数据的云上云下迁移如何解决
|
1月前
|
安全 关系型数据库 MySQL
体验自建数据库迁移到云数据库RDS,领取桌面置物架!
「技术解决方案【Cloud Up 挑战赛】」正式开启!本方案旨在帮助用户将自建数据库平滑迁移至阿里云RDS MySQL,享受稳定、高效、安全的数据库服务,助力业务快速发展。完成指定任务即可赢取桌面置物架等奖励,限量供应,先到先得。活动时间:2024年12月3日至12月31日16点。