【Redis实战专题】「性能监控系列」全方位探索Redis的性能监控以及优化指南

本文涉及的产品
云数据库 Tair(兼容Redis),内存型 2GB
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
可观测监控 Prometheus 版,每月50GB免费额度
简介: 【Redis实战专题】「性能监控系列」全方位探索Redis的性能监控以及优化指南

Redis基本简介


Redis是一个开源(BSD 许可)、内存存储的数据结构服务器,可用作数据库,高速缓存和消息队列代理。它支持字符串、哈希表、列表、集合、有序集合等数据类型。内置复制、Lua 脚本、LRU收回、事务以及不同级别磁盘持久化功能,同时通过 Redis Sentinel 提供高可用,通过Redis Cluster提供自动分区。




Redis监控指标


Redis本身提供的INFO命令会返回丰富的实例运行监控信息,这个命令是Redis监控工具的基础。总体INFO命令的返回信息分成以下5大类。


  • 性能指标:Performance


  • 内存指标: Memory


  • 基本活动指标:Basic activity


  • 持久性指标: Persistence


  • 错误指标:Error





Redis基本的监控命令—INFO 命令


INFO命令在使用时,可以带一个参数section,这个参数的取值有好几种,相应的,INFO 命令也会返回不同类型的监控信息。如下图所示:

image.png


在监控Redis 运行状态时,INFO命令返回的结果非常有用。如果你想了解 INFO 命令的所有参数返回结果的详细含义。可以根据Redis中文官方文档-Info质量以及Redis官方文档进行介绍说明。这里,我给你提几个运维时需要重点关注的参数以及它们的重要返回结果。



性能指标:Performance指令


无论你是运行单实例或是集群,我建议你重点关注一下stat 、commandstat 、cpu 和 memory 这四个参数的返回结果,这里面包含了命令的执行情况(比如命令的执行次数和执行时间、命令使用的 CPU资源),内存资源的使用情况(比如内存已使用量、内存碎片率),CPU 资源使用情况等,这可以帮助我们判断实例的运行状态和资源消耗情况。



info stats


当执行info stats指令的时候所出现的效果:

image.png

分析的大多数结果

total_connections_received:1083173900
total_commands_processed:8313824390
instantaneous_ops_per_sec:271
total_net_input_bytes:1356487222784
total_net_output2bytes:2360788536838
instantaneous_input_kbps:13.49
instantaneous_output_kbps:1.84
rejected_connections: 0
复制代码
基础的相关的数据信息统计


  • total_connections_received:主要用于统计累计的接收的总体连接数。


  • total_commands_processed:主要用于统计累计的命令的处理指令数量。


  • instantaneous_ops_per_sec:瞬时的每秒的请求数量,主要用于跟踪已处理命令的吞吐量对于诊断Redis实例中高延迟的原因至关重要。


  • total_net_input_bytes:主要用于统计网络输入的总体字节数


  • total_net_output_bytes:主要用于统计网络输出的总体字节数


  • instantaneous_input_kbps:瞬时的较高的输入的kb指。


  • instantaneous_output_kbps:瞬时的较高的输出的kb指。


  • rejected_connections:被总体的拒接的连接数量。




持久性指标: Persistence


当你启用RDB或AOF功能时,你就需要重点关注下 persistence 参数的返回结果,你可以通过它查看到 RDB 或者 AOF 的执行情况。总体介绍一下持久化相关的监控信息,如下图所示:

image.png


RDB相关的信息统计


  • rdb_changes_since_last_save:24455275 - 表明上次RDB保存以后改变的key次数


  • rdb_bgsave_in_progress:0 - 表示当前是否在进行bgsave操作。是为1


  • rdb_last_save_time:1673341911 - 上次保存RDB文件的时间戳


  • rdb_last_bgsave_status:ok - 上次保存的状态


  • rdb_last_bgsave_time_sec:9 - 上次保存的耗时


  • rdb_current_bgsave_time_sec:-1 - 目前保存RDB文件已花费的时间


  • rdb_last_cow_size:11120640 -


AOF相关的信息统计


文件状态监控相关的参数


  • aof_enabled : 一个标志值,记录了 AOF 是否处于打开状态,1代表打开。


  • aof_rewrite_in_progress : 一个标志值,记录了服务器是否正在创建AOF文件。


  • aof_rewrite_scheduled : 一个标志值,记录了在 RDB 文件创建完毕之后,是否需要执行预约的 AOF 重写操作。


  • aof_last_rewrite_time_sec : 最近一次创建 AOF 文件耗费的时长。


  • aof_current_rewrite_time_sec : 如果服务器正在创建 AOF 文件,那么这个域记录的就是当前的创建操作已经耗费的秒数。


  • aof_last_bgrewrite_status : 一个标志值,记录了最近一次创建 AOF 文件的结果是成功还是失败。



info clients

image.png

主要标识已连接客户端的信息,它包含以下域:

connected_clients:406
client_recent_max_input_buffer:4
client_recent_max_output_buffer:0
blocked_clients:40
复制代码



针对于客户端的相关的结果信息介绍说明:


  • connected_clients : 已连接客户端的数量(不包括通过从属服务器连接的客户端)


  • client_longest_output_list : 当前连接的客户端当中,最长的输出列表


  • client_longest_input_buf : 当前连接的客户端当中,最大输入缓存


  • blocked_clients : 正在等待阻塞命令(BLPOP、BRPOP、BRPOPLPUSH)的客户端的数量



info commandstats


主要用于统计相关的命令指令的执行速度以及相关的指令执行频率。

image.png

部分记录了各种不同类型的命令的执行统计信息,比如命令执行的次数、命令耗费的 CPU 时间、执行每个命令耗费的平均 CPU 时间等等。对于每种类型的命令,这个部分都会添加一行以下格式的信息:


cmdstat_multi:calls=2792,usec=188,usec_per_call=0.07
复制代码
  • cmdstat_multi:代表着指令名称:cmdstat_指令名称


  • calls:代表着指令执行次数


  • usec:执行的指令时间(微秒)


  • usec_per_call:每秒的调用次数,用于计算频次


info cpu


cpu 部分记录了 CPU 的计算量统计信息,它包含以下域:

image.png

  • used_cpu_sys : Redis 服务器耗费的系统 CPU时间 。


  • used_cpu_user : Redis 服务器耗费的用户 CPU时间 。


  • used_cpu_sys_children : 后台进程耗费的系统 CPU时间 。


  • used_cpu_user_children : 后台进程耗费的用户 CPU时间 。



user_cpu_sys 和user_cpu_sys_children


user_cpu_sys是Redis主进程消耗,user_cpu_sys_children是后台进程消耗(后台包括RDB文件的消耗,master,slave同步产生的消耗等等)


  • user指的是指令在 用户态(User Mode)所消耗的CPU时间


  • sys指的是指令在 核心态(Kernel Mode)所消耗的CPU时间。


发现这4个CPU指标是一个统计指标,比如used_cpu_sys是将所有Redis主进程在核心态所占用的CPU时间求和累计起来,所以它会随着Redis启动的时间长度不断累计上升,并在你重启Redis服务后清0。



info memory


memory 部分记录了服务器的内存信息,它包含以下域

image.png

  • used_memory : 由Redis分配器分配的内存总量,以字节(byte)为单位


  • used_memory_human : 以用户可读的格式返回Redis分配的内存总量


  • used_memory_rss : 从操作系统的角度,返回 Redis 已分配的内存总量(俗称常驻集大小)。这个值和 top 、 ps 等命令的输出一致。


  • used_memory_peak : Redis的内存消耗峰值(以字节为单位)


  • used_memory_peak_human : 以用户可读的格式返回 Redis 的内存消耗峰值


  • used_memory_lua : Lua引擎所使用的内存大小(以字节为单位)


  • mem_fragmentation_ratio : used_memory_rss 和 used_memory 之间的比率


  • mem_allocator : 在编译时指定的, Redis 所使用的内存分配器。可以是 libc 、 jemalloc 或者 tcmalloc 。




在理想情况下, used_memory_rss 的值应该只比 used_memory 稍微高一点儿。 当 rss > used ,且两者的值相差较大时,表示存在(内部或外部的)内存碎片。 内存碎片的比率可以通过 mem_fragmentation_ratio 的值看出。


当 used > rss 时,表示Redis的部分内存被操作系统换出到交换空间了,在这种情况下,操作可能会产生明显的延迟。


当 Redis 释放内存时,分配器可能会,也可能不会,将内存返还给操作系统。如果 Redis 释放了内存,却没有将内存返还给操作系统,那么 used_memory 的值可能和操作系统显示的 Redis 内存占用并不一致。




基本活动指标:Basic activity


如果你在使用主从集群,就要重点关注下 replication 参数的返回结果,这里面包含了主从同步的实时状态。

info replication

image.png

主/从复制信息


role : 如果当前服务器没有在复制任何其他服务器,那么这个域的值就是 master ;否则的话,这个域的值就是 slave 。注意,在创建复制链的时候,一个从服务器也可能是另一个服务器的主服务器。


如果当前服务器是一个从服务器的话,那么这个部分还会加上以下域:


  • master_host : 主服务器的 IP 地址。


  • master_port : 主服务器的 TCP 监听端口号。


  • master_link_status : 复制连接当前的状态, up 表示连接正常, down 表示连接断开。


  • master_last_io_seconds_ago : 距离最近一次与主服务器进行通信已经过去了多少秒钟。


  • master_sync_in_progress : 一个标志值,记录了主服务器是否正在与这个从服务器进行同步。


如果同步操作正在进行,那么这个部分还会加上以下域:


  • master_sync_left_bytes : 距离同步完成还缺少多少字节数据。


  • master_sync_last_io_seconds_ago : 距离最近一次因为 SYNC 操作而进行 I/O 已经过去了多少秒。


如果主从服务器之间的连接处于断线状态,那么这个部分还会加上以下域:


  • master_link_down_since_seconds : 主从服务器连接断开了多少秒。


INFO 命令只是提供了文本形式的监控结果,并没有可视化,所以,在实际应用中,我们还可以使用一些第三方开源工具,将 INFO 命令的返回结果可视化。接下来,我要讲的 Prometheus ,就可以通过插件将 Redis 的统计结果可视化。






Prometheus的Redis-exporter监控


Prometheus监控体系


Prometheus是一套开源的系统监控报警框架。它的核心功能是从被监控系统中拉取监控数据,结合Grafana 工具,进行可视化展示。



监控数据


监控数据可以保存到时序数据库中,以便运维人员进行历史查询。同时,Prometheus 会检测系统的监控指标是否超过了预设的阈值,一旦超过阈值,Prometheus 就会触发报警。


对于系统的日常运维管理来说,这些功能是非常重要的。而Prometheus已经实现了使用这些功能的工具框架。我们只要能从被监控系统中获取到监控数据,就可以用 Prometheus 来实现运维监控。



Redis-exporter插件


Prometheus 正好提供了插件功能来实现对一个系统的监控,我们把插件称为 exporter ,每一个 exporter实际是一个采集监控数据的组件。exporter采集的数据格式符合 Prometheus 的要求,Prometheus 获取这些数据后,就可以进行展示和保存了。



Redis-exporter


Redis-exporter就是用来监控 Redis的,它将 INFO 命令监控到的运行状态和各种统计信息提供给 Prometheus,从而进行可视化展示和报警设置。目前,Redis-exporter 可以支持 Redis 2.0 至 6.0 版本,适用范围比较广。


除了获取 Redis 实例的运行状态,Redis-exporter 还可以监控键值对的大小和集合类型数据的元素个数,这个可以在运行 Redis-exporter 时,使用 check-keys 的命令行选项来实现。


此外,我们可以开发一 Lua 脚本,定制化采集所需监控的数据。然后,我们使用 scripts 命令行选项,让 Redis-exporter 运行这个特定的脚本,从而可以满足业务层的多样化监控需求。




Redis-stat 和Redis Live工具


Redis-exporter 相比,这两个都是轻量级的监控工具。它们分别是用 Ruby 和 Python 开发的,也是将 INFO 命令提供的实例运行状态信息可视化展示。虽然这两个工具目前已经很少更新了,不过,如果你想自行开发 Redis 监控工具,它们都是不错的参考。




相关实践学习
基于Redis实现在线游戏积分排行榜
本场景将介绍如何基于Redis数据库实现在线游戏中的游戏玩家积分排行榜功能。
云数据库 Redis 版使用教程
云数据库Redis版是兼容Redis协议标准的、提供持久化的内存数据库服务,基于高可靠双机热备架构及可无缝扩展的集群架构,满足高读写性能场景及容量需弹性变配的业务需求。 产品详情:https://www.aliyun.com/product/kvstore     ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
2月前
|
NoSQL 安全 测试技术
Redis游戏积分排行榜项目中通义灵码的应用实战
Redis游戏积分排行榜项目中通义灵码的应用实战
65 4
|
3月前
|
NoSQL 关系型数据库 MySQL
MySQL与Redis协同作战:百万级数据统计优化实践
【10月更文挑战第21天】 在处理大规模数据集时,传统的单体数据库解决方案往往力不从心。MySQL和Redis的组合提供了一种高效的解决方案,通过将数据库操作与高速缓存相结合,可以显著提升数据处理的性能。本文将分享一次实际的优化案例,探讨如何利用MySQL和Redis共同实现百万级数据统计的优化。
127 9
|
3月前
|
NoSQL 关系型数据库 MySQL
MySQL与Redis协同作战:优化百万数据查询的实战经验
【10月更文挑战第13天】 在处理大规模数据集时,传统的关系型数据库如MySQL可能会遇到性能瓶颈。为了提升数据处理的效率,我们可以结合使用MySQL和Redis,利用两者的优势来优化数据查询。本文将分享一次实战经验,探讨如何通过MySQL与Redis的协同工作来优化百万级数据统计。
109 5
|
3月前
|
缓存 NoSQL Java
Spring Boot与Redis:整合与实战
【10月更文挑战第15天】本文介绍了如何在Spring Boot项目中整合Redis,通过一个电商商品推荐系统的案例,详细展示了从添加依赖、配置连接信息到创建配置类的具体步骤。实战部分演示了如何利用Redis缓存提高系统响应速度,减少数据库访问压力,从而提升用户体验。
172 2
|
3月前
|
NoSQL 关系型数据库 MySQL
MySQL与Redis协同作战:百万数据量的优化实录
【10月更文挑战第6天】 在现代互联网应用中,随着用户量的增加和业务逻辑的复杂化,数据量级迅速增长,这对后端数据库系统提出了严峻的挑战。尤其是当数据量达到百万级别时,传统的数据库解决方案往往会遇到性能瓶颈。本文将分享一次使用MySQL与Redis协同优化大规模数据统计的实战经验。
191 3
|
3月前
|
NoSQL 关系型数据库 BI
记录一次MySQL+Redis实现优化百万数据统计的方式
【10月更文挑战第13天】 在处理百万级数据的统计时,传统的单体数据库往往力不从心,这时结合使用MySQL和Redis可以显著提升性能。以下是一次实际优化案例的详细记录。
183 1
|
4月前
|
缓存 NoSQL 应用服务中间件
Redis实战篇
Redis实战篇
|
5月前
|
运维 监控 NoSQL
【Redis】哨兵(Sentinel)原理与实战全解~炒鸡简单啊
Redis 的哨兵模式(Sentinel)是一种用于实现高可用性的机制。它通过监控主节点和从节点,并在主节点故障时自动进行切换,确保集群持续提供服务。哨兵模式包括主节点、从节点和哨兵实例,具备监控、通知、自动故障转移等功能,能显著提高系统的稳定性和可靠性。本文详细介绍了哨兵模式的组成、功能、工作机制以及其优势和局限性,并提供了单实例的安装和配置步骤,包括系统优化、安装、配置、启停管理和性能监控等。此外,还介绍了如何配置主从复制和哨兵,确保在故障时能够自动切换并恢复服务。
|
5月前
|
存储 缓存 NoSQL
Redis 7.0如何优化缓存命中率?
优化Redis缓存命中率的关键策略包括:合理设计键值结构以节省内存并提高查找效率,如使用哈希表存储共享前缀的键;采用LRU算法淘汰不常用键,保持热门数据;优化查询模式,避免大键与大量小键,使用`SCAN`代替`KEYS`减少负载;为临时数据设置过期时间自动清理;监控性能并适时调整策略;利用不同数据类型的优势;使用Pipeline减少网络延迟;限制键扫描范围;优化Lua脚本执行效率;以及根据应用场景合理配置Redis参数。这些方法有助于提升Redis性能和缓存效率。
|
5月前
|
消息中间件 存储 NoSQL
redis实战——go-redis的使用与redis基础数据类型的使用场景(一)
本文档介绍了如何使用 Go 语言中的 `go-redis` 库操作 Redis 数据库
248 0
redis实战——go-redis的使用与redis基础数据类型的使用场景(一)