通过EBS Lens实时监控块存储状态

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 块存储的监控与运维是非常重要的,EBS Lens针对块存储提供数据分析、资源监控的功能,可以帮助用户获取云上块存储资源信息与性能监控数据、提升云上块存储资源的管理效率、高效分析业务波动与资源性能消耗情况。

块存储的监控与运维是非常重要的,EBS Lens针对块存储提供数据分析、资源监控的功能,可以帮助用户获取云上块存储资源信息与性能监控数据、提升云上块存储资源的管理效率、高效分析业务波动与资源性能消耗情况。

EBS监控现状

块存储是阿里云为云服务器ECS提供的块设备产品,具有高性能和低时延的特点。临近双十一,在大促的时候,磁盘IO往往是运维的重点,如果磁盘负载过高,那么关键的业务可能会停滞甚至崩溃。EBS监控目前存在几个问题:

  1. 块存储提供的原生监控仅限制在单实例级别,只能查看单个云盘的性能监控,缺少对全局云盘状态的监控,如果云盘数量很多,那么云盘状态的监控就非常麻烦。

  2. 通过SLS Logtail, Telegraf或者云监控agent等,可以实现对单个ECS实例所有云盘的状态的监控。但是这些监控方式都是侵入式的,agent的安装、监控大盘的维护、云盘实例监控精细化控制、以及跨ECS实例的监控,对于用户来说,都有很大的学习成本和代价。

  3. 分析维度单一,以上场景下,对云盘的监控和分析还是基于云盘ID的,而云盘资产本身的属性也包含很多信息。比如用户想看到一个自己所有云盘资产的大图、各个地域的云盘分布、各个云盘类型的比例等信息,都是很难做到的。

正是考虑到用户对EBS监控的使用有如上的痛点,SLS团队联合EBS团队发布了EBS Lens,针对块存储提供数据分析、资源监控的功能,可以帮助用户获取云上块存储资源信息与性能监控数据、提升云上块存储资源的管理效率、高效分析业务波动与资源性能消耗情况。

EBS Lens产品特点

自动化数据采集

EBS Lens开启后,SLS会自动从用户的EBS资产中拉取云盘列表。进入APP后首先展示的就是接入管理页面,在这个页面,可以看到EBS云盘全局的一个管理视图,包含以下信息:

  • 展示当前接入的云盘总量、数据采集的云盘数量、云盘的地域和目标存储库的数量。

  • 展示EBS实例信息。例如,实例ID、标签、云盘种类、云盘类型、可用区信息、采集状态、采集操作等信息。如果用户在开启EBS Lens之后,对EBS云盘有新建、更新和删除操作的话,SLS会自动更新这里的云盘列表。

EBS云盘资产同步过来之后,需要用户开启云盘资产的监控数据采集。在这里,我们提供两种采集方式,一种是供用户进行精细化管理的手动采集,还有一种是在EBS云盘数量过多的情况下,方便用户全局管理的自动化采集。

手动采集

  • 支持对单个实例的采集状态进行管理。

  • 考虑到EBS实例数量会比较多,这里支持在单个分页下面进行批量开启/批量关闭操作。

自动化采集

当用户云盘有几百甚至上千个的时候,手动采集的管理方式显然不能满足需求,因此我们还提供了一个自动化采集的功能。自动化采集提供了图形化的配置界面:

  • 可以使用地域、实例ID、付费类型、磁盘类型、标签等属性设置采集条件。

  • 标准模式下各个条件之间为且关系。高级模式下,您可以灵活组合与嵌套条件。

配置保存之后,自动化采集立刻开启。所有满足条件的云盘,都会自动打开日志采集,从而省去了手动操作的步骤,另外当实例有所增减的时候,自动化采集也能够感知实例的变化,进行相应的调整。

存储库信息展示

开启云盘监控数据采集之后,SLS会从EBS云盘上拉取监控数据,然后投递到用户配置的目标存储库里,以时序数据的形式进行存储,在目标存储库这个tab里,支持的功能有:

  • 支持查看存储目标库的地域、数据保存时间。

  • 支持数据保存时间的调整。

  • 点击目标库,可以进入SLS的project页面,查看原始监控数据。

EBS云盘资产同步、日志采集开启之后,EBS Lens就有了EBS云盘资产和云盘的监控数据了,基于这两个数据,EBS Lens做了两个监控大盘,资源概览和性能分析页面。

多维度数据聚合与丰富的数据指标类型

  • 资源概览页面,提供一个全局的资产大盘,默认按照用户维度,提供用户账号下所有云盘的统计信息,包括:

    • 云盘总数量

    • 云盘总容量

    • 云盘实例所属地域个数

    • 云盘实例所属可用区个数

    • 启用快照云盘占比

    • 加密云盘占比

    • Top10容量的区域

    • Top10容量的可用区

    • 云盘类型容量分布

    • 付费类型容量分布

  • 除了账号的维度外,还支持对地域、付费类型、磁盘类型进行筛选,充分满足用户的各种统计需求。

高精度的数据监控粒度

  • 性能分析页面提供了一个全局的云盘监控大盘,默认会统计用户账号下所有磁盘关键指标的监控,包括

    • 吞吐量

      • 总的吞吐量变化曲线

      • 读/写吞吐存储Top100的实例,以及吞吐变化曲线

    • IOPS

      • 总的IOPS变化曲线

      • 读写IOPS Top100的实例,以及IOPS变化曲线

    • 性能分析页面还支持对地域、付费类型、云盘类型、云盘ID进行筛选,满足用户精细化监控的需求。

    • 云盘监控粒度为10s,监控延迟为10s内,对于抖动类场景可以有效进行监控。

使用场景

EBS Lens有这么便捷的管理方式以及丰富、多维度的监控指标,下面我们列举了几个常用的场景,来详细说明下EBS Lens的功能:

监控场景

下面我们模拟日常常见的磁盘IO异常的场景,展示下EBS Lens的在监控场景下的应用。

环境准备

  1. 首先我们创建一个云盘,或者使用已有的云盘,挂载到ECS实例上。挂载云盘的操作参见:挂载数据盘

重要

云盘挂载到ECS实例后,必须创建分区和文件系统,使云盘变为可用。

  1. 将账号下所有云盘通过自动化采集配置,打开监控数据采集。

  2. 打开性能分析页面,确认云盘监控数据已接入进来。

异常模拟

我们进入ECS实例中,使用dd来模拟一个对磁盘的异常写入的操作:

EBS Lens监控结果

在EBS Lens性能分析页面,从大盘里,我们发现有一块磁盘的吞吐量和IOPS迅速提升到TOP1。为了查看磁盘的详细指标,我们在过滤框内输入磁盘id,可以看到这个磁盘在选定时间范围内吞吐量和IOPS的变化。而该实例id,正是我们模拟的写入异常的磁盘。在线上,如果出现类似的问题,那么接下来我们就该去进行详细的问题定位,比如异常的服务日志打印、不合理的数据落盘等。通过调整时间范围,对于设置ttl范围内的数据,EBS Lens都支持在该页面进行展示,对于故障的复盘和分析也是有非常大的帮助的。

配合SLS的告警功能,用户完全可以自动化的监控云盘的性能,准确定位异常云盘。

服务压测和性能调优

除了监控场景,EBS Lens在服务压测和性能调优的场景,同样有非常大的作用。所有关于性能方面的测试,最关键的基础设施就是监控指标。EBS Lens性能分析大盘就可以提供云盘实时的性能指标,这可以有效的帮助用户快速定位云盘是否存在性能瓶颈。我们模拟一个简单的写入场景:大量级的数据要以最快的速度写到磁盘上。

环境准备

  1. 我们采用跟上面环境一样的ECS环境,在这个场景下我们指定一个固定的云盘做测试。

  1. 在EBS Lens的页面打开该云盘的监控数据采集

场景模拟

第一版本,这里使用FIO模拟性能比较差的一个随机写的实现场景:

fio -filename=/mnt/test1 -direct=1 -iodepth 1 -thread -rw=randwrite -ioengine=psync -bs=16k -size=2G -numjobs=10 -runtime=60 -group_reporting -name=mytest

通过EBS Lens的监控,我们发现云盘的吞吐和IO比较低,远远没有达到云盘的性能上限,分别为15MB/s,900。参考块存储性能指标文档

因此我们再对写入脚本进行优化,把随机写的实现改成了比较好的顺序写的实现:

fio -filename=/mnt/test2 -direct=1 -iodepth 1 -thread -rw=write -ioengine=psync -bs=16k -size=2G -numjobs=10 -runtime=60 -group_reporting -name=mytest

通过EBS Lens的监控,吞吐达到了47MB/s,而IOPS达到了3000左右。

通过块存储性能指标文档我们得知,SSD云盘的性能因数据块大小而异,数据块越小,吞吐量越小,IOPS越高。因此为了提高吞吐量,我们考虑提高单次写入的数据块大小:

fio -filename=/mnt/test2 -direct=1 -iodepth 1 -thread -rw=write -ioengine=psync -bs=64k -size=2G -numjobs=10 -runtime=60 -group_reporting -name=mytest

通过EBS Lens的监控,吞吐达到了143MB/s,而IOPS下降到了2300左右。由此可以看到有了EBS Lens之后,对于磁盘IO的性能测试和调优,是多么的方便。

相关实践学习
块存储快速入门
块存储是阿里云为云服务器ECS提供的块设备产品。通过体验挂载数据盘、分区格式化数据盘(Linux)、创建云盘快照、重新初始化数据盘、使用快照回滚云盘和卸载数据盘等功能,带您快速入门块存储。
相关文章
|
7天前
|
存储 Cloud Native 块存储
EBS深度解析:云原生时代企业级块存储
企业上云的策略,从 Cloud-Hosting 转向 Serverless 架构。块存储作为企业应用上云的核心存储产品,将通过 Serverless 化来加速新的计算范式全面落地。在本话题中,我们将会介绍阿里云块存储企业级能力的创新,深入解析背后的技术细节,分享对未来趋势的判断。
|
存储 弹性计算 安全
《阿里云认证的解析与实战-云计算ACP认证》——云计算ACP训练营第2天——一、弹性块存储EBS
《阿里云认证的解析与实战-云计算ACP认证》——云计算ACP训练营第2天——一、弹性块存储EBS
|
存储 弹性计算 固态存储
《阿里云存储手册》——块存储EBS
《阿里云存储手册》——块存储EBS
646 0
|
6月前
|
存储 数据采集 弹性计算
通过EBS Lens实时监控块存储状态
块存储的监控与运维是非常重要的,EBS Lens针对块存储提供数据分析、资源监控的功能,可以帮助用户获取云上块存储资源信息与性能监控数据、提升云上块存储资源的管理效率、高效分析业务波动与资源性能消耗情况。
177 0
通过EBS Lens实时监控块存储状态
|
存储 数据采集 弹性计算
块存储监控与服务压测调优利器-EBS Lens发布
SLS团队联合EBS团队发布了EBS Lens,针对块存储提供数据分析、资源监控的功能,可以帮助用户获取云上块存储资源信息与性能监控数据、提升云上块存储资源的管理效率、高效分析业务波动与资源性能消耗情况。
1982 0
|
3月前
|
存储 测试技术
阿里云块存储问题之测试不聚焦可能导致测试不稳定如何解决
阿里云块存储问题之测试不聚焦可能导致测试不稳定如何解决
45 3
|
4月前
|
存储 固态存储 大数据
阿里云服务器实例、块存储、带宽收费标准与云服务器最新活动价格参考
阿里云服务器价格通常包括云服务器实例价格、块存储价格和带宽价格组成,云服务器不同实例规格收费标准不一样,选择不同类型的块存储收费标准也不一样,选择不同的带宽收费标准也不一样。现在阿里云轻量应用服务器2核4G4M峰值带宽298元1年,云服务器2核4G5M固定带宽199元1年、2核8G1M固定带宽652.32元1年、4核8G1M固定带宽955.58元1年、4核16G10M带宽100G ESSD Entry云盘70元1个月。本文为大家整理了目前阿里云服务器实例、块存储、带宽收费标准与云服务器最新的活动价格情况,以供参考。
阿里云服务器实例、块存储、带宽收费标准与云服务器最新活动价格参考
|
3月前
|
存储
阿里云块存储问题之高效的Code Review可以发现70-90%的bug如何解决
阿里云块存储问题之高效的Code Review可以发现70-90%的bug如何解决
40 1
|
3月前
|
存储 Linux 测试技术
阿里云块存储问题之在编码和提交代码时确保代码提交的原子性如何解决
阿里云块存储问题之在编码和提交代码时确保代码提交的原子性如何解决
41 0
|
3月前
|
存储 Cloud Native Linux
阿里云块存储问题之poison发布阻塞机制实现如何解决
阿里云块存储问题之poison发布阻塞机制实现如何解决
45 0