一文掌握Redis集群实用运维工具redis-tool-阿里云开发者社区

一文掌握Redis集群实用运维工具redis-tool

2022-09-13 2709

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

Redis 开源版，标准版 2GB

云数据库 Tair（兼容Redis），内存型 2GB

日志服务 SLS，月写入数据量 50GB 1个月

简介： redis-tool基于原生的redis-cli客户端工具来进行Redis集群的监控、配置、问题分析等运维管理，能够极大降低Redis cluster集群的运维成本。同时作为脚本化工具，下载即可用，即使对于Redis初学者，也能够快速掌握集群的运行状况，完成集群配置管理、性能问题排查，具备Redis集群的基本运维能力。

关于redis-tool工具

Redis作为nosql内存数据库，因为丰富的数据类型、可持久化，以及出色的性能在许多公司中都得到了广泛的应用。随着业务量的增长，单机Redis无论数据容量还是访问性能都逐渐满足不了实际需求，Redis cluster集群因为良好的可扩展性，以及故障自动切换能力，被越来越多的公司作为分布式缓存产品的解决方案，但随之而来的运维复杂度也越来越高。

redis-tool 基于原生的redis-cli客户端工具来进行Redis集群的监控、配置、问题分析等运维管理，能够极大降低Redis cluster集群的运维成本。同时作为脚本化工具，下载即可用，即使对于Redis初学者，也能够快速掌握集群的运行状况，完成集群配置管理、性能问题排查，具备Redis集群的基本运维能力。

工具可以做什么？

redis-tool工具主要面向日常运维管理中的常见工作，提升运维效率，简化操作复杂度：

集群监控：能够获取集群节点的键值数、内存使用量、每秒请求量、CPU使用率、请求响应时延等格式化信息，并给出异常告警提示
配置管理：可以按节点属性来统一查询或修改指定的运行参数，并且支持对集群各节点的运行参数进行差异对比
问题分析：具备慢命令日志查询、热点key分析、TOP命令跟踪、KEY前缀统计等问题分析能力

如何使用工具？

redis-tool工具使用shell脚本实现，下载到具有redis-cli工具的主机上即可使用（通常可部署到redis服务主机上）。

# 1. 从github下载redis-tool工具
# 方法一：使用git下载
$ git clone https://github.com/iwhalecloud-platform/redis-tool.git
# 进入下载目录
$ cd redis-tool
# 方法二：使用wget下载
$ wget https://github.com/iwhalecloud-platform/redis-tool/archive/refs/heads/main.zip
# 解压工具包&修改目录名
$ unzip main.zip && mv redis-tool-main redis-tool
# 进入下载目录
$ cd redis-tool

# 2. 设置REDIS_HOME环境变量为redis-cli工具所在目录（如果PATH环境变量中包含该目录，则该步可省略）
$ echo "export REDIS_HOME=/path/to/redis-cli/" >> ~/.bashrc
$ source ~/.bashrc

# 3. 使用帮助：不带参数执行工具可以看到使用帮助
$ ./redis-tool
Usage: redis-tool [OPTIONS] [command]
OPTIONS:
   -h <IP>:       Redis集群中某个节点IP (默认值: 127.0.0.1).
   -p <port>:     Redis集群中某个节点端口 (默认值: 6379).
   -i <nodefile>: Redis集群节点信息文件(适配codis等基于PROXY构建的集群模式).
                  文件格式(每行一个分片)：<slots1> <MasterAddr> [SlaveAddr] [SlaveAddr]
   -a <password>: Redis访问密码，也可使用'REDISCLI_AUTH'环境变量来传入.
   -c <count>:    1. TOP10命令统计滚动展示次数(默认无限次, 'moni'使用).
                  2. 从Redis节点中获取的慢命令记录数(默认值: 100, 'slowlog'使用).
                  3. 从Redis节点中随机获取的KEY名称数量(默认值: 100000, 'keys'使用).
   -d <delay>:    TOP10命令统计滚动展示等待间隔(单位: 秒, 默认值: 3, 'moni'使用).
   -t <time>:     实时命令监控跟踪运行时长(单位: 秒, 默认值: 10, 'trace'使用).
   -s:            只处理指定Redis节点('moni' & 'slowlog'使用).
   -l:            TOP10命令统计滚动展示包含命令执行平均处理耗时('moni'使用).
   -f <file>:     1. 基于监控的命令详情文件进行命令监控跟踪处理('trace'使用).
                  2. 基于指定的KEY名称列表文件进行前缀统计('keys'使用).
   -L <level>:    按KEY前缀统计层级(默认值: 3, 'keys'使用).
   -H:            基于监控的命令详情文件进行热点KEY访问分析('trace'使用).
   -C:            基于监控的命令详情文件按客户端IP进行命令统计('trace'使用).
   -r:            按裸输据形式输出集群节点监控指标,便于存储或上报至第三方监控系统 ('nodes'使用).
   -k <key>:      要查询或修改的Redis运行参数名('config'使用).
   -v <value>:    要修改的Redis运行参数值('config'使用).
   -M:            只访问集群中主节点的运行参数 ('config'使用).
   -S:            只访问集群中从节点的运行参数 ('config'使用).
   -w:            Redis节点运行参数修改后需要重写配置文件('config'使用).
command:
   nodes:   集群节点状态监控 (默认执行)
   keys:    按KEY前缀层级进行统计分析
   moni:    TOP10命令周期性滚动统计
   trace:   实时命令监控跟踪 & 热点KEY访问分析
   slowlog: 集群慢命令日志查询
   config:  查询/修改集群运行参数 & 集群运行参数差异检查

什么时候使用？

Redis集群监控

场景介绍：日常运维中最常做的就是检查集群的运行状态、负载情况，作为排查业务访问慢、连接失败等问题的基本手段。虽然Redis本身提供的监控命令包含丰富的信息，但对于普通人员来说，掌握这些内容的门槛太高，而要整合集群所有节点的信息就更为繁琐。

使用nodes子命令可以汇总集群各节点的主要指标信息，并按照主从关系进行级联展示：

基本信息：
- 节点状态：可用于判断节点基本状态
  - OK：节点正常运行中
  - FAIL：节点连接失败
  - LOAD：节点正在进行数据加载
  - NOAUTH：节点密码认证失败（需指定正确的访问密码）
  - 节点角色：如果节点角色变更，可能是发生过故障切换，需要通过服务日志进一步核查
    - master：主节点
    - slave：从节点
- 节点版本：对于Redis集群，版本号应该 >=3.0.0
- 运行时长：节点已经运行的时长（单位：s），可用于判断节点是否发生重启
存储信息：
- 键值数：节点中存在的键值数
- 使用内存：节点使用的内存量，建议不要超过10G，如果过高应该扩大集群规模
负载信息：
- 客户端数：节点当前接入的客户端连接数
- %CPU：节点当前的CPU使用率百分比，通常不应该超过70%
- OPS：节点当前每秒处理的命令请求量
- RTT：节点当前请求响应时延（单位：us），通常不应该超过1000
汇总信息：
按主节点和集群维度，汇总节点数、键值数、内存使用量、客户端连接数、OPS、%CPU等指标信息

主节点分布均匀，能够更好的发挥Redis性能，而且也有利于故障切换时的主从选举，所以对于主节点分布不均匀时，会给出告警信息

工具支持-r参数，用于将集群节点指标以裸输据输出，方便进行指标文件存储，或上报至第三方监控平台

问题排查分析

慢命令分析

场景介绍：当客户端访问Redis存在时延过大时（上百毫秒），通常我们需要分析是否存在慢命令日志；Redis本身提供的日志信息未进行格式化，不利于查看；对于Redis集群来说，因为存在很多节点，进一步增大了慢命令日志分析难度。

使用slowlog子命令可以汇总集群各节点的慢命令日志，按日志生成时间进行排序展示格式化后的命令详情：

日志按时间顺序展示，当前页面展示最新的日志信息

对于存在慢命令日志的日期会进行日志数量汇总

工具支持-c <count>参数，来指定查询节点最新的慢命令记录数（默认值：100）

慢命令日志主要原因：

大key访问：key值包含的元素数太大时对Redis服务性能影响较大，建议优化业务逻辑，进行大key拆分或使用替代命令（例如使用HSCAN代替HGETALL）
复杂命令：KEYS、FLUSHDB、HGETALL等，生产环境通常禁止使用
主机内存不足：当主机因为内存不足，而使用了磁盘交换区时，对于Redis服务性能影响很大，需要进行内存使用限制或主机资源扩容
主机CPU繁忙：主机CPU配置较低，或者部署了其他高CPU占用软件，生产环境建议Redis主机独占部署
CPU使用限制：通过cgroup限制了Redis进程的CPU使用率，导致访问性能下降，生产环境不建议进行限制

热点key分析

场景介绍：当业务应用性能出现瓶颈，而Redis集群整体访问量远未达到预期时，可能是因为热点key访问导致的性能问题，需要进行问题排查分析；redis-cli自带的热点key查找受限于服务版本、服务配置，以及查询的是整个运行周期内的热点key，问题定位的性能和准确性都难以达到期望效果。

当通过Redis集群监控发现某个Redis节点的%CPU或OPS指标相对于其他节点高很多时，通常是因为存在热点key访问，此时可以使用trace子命令实时监控该节点的命令请求，并分析KEY的访问请求占比，从而发现热点key：

实时监控统计节点每秒处理的命令，并记录命令详情至文件中[172.16.18.81-6380.mon]
基于监控的命令详情文件进行热点KEY访问分析，发现热点访问键key1

热点key的存在通常需要从业务使用侧进行优化，主要的处理策略：

将每次业务访问的key进行拆分，避免总是访问同一个key

对需要频繁访问的key进行本地缓存，本地缓存数据可以通过定时策略进行更新

优化业务流程处理逻辑，减少无效的交互访问次数

TOP命令跟踪

场景介绍：当Redis集群整体负载比较高，或者需要配合业务应用检查命令执行是否符合预期时，都需要我们对Redis集群的命令执行情况进行统计检查，并发现无效或高消耗的命令调用。

使用moni子命令能够滚动展示周期内TOP10命令执行次数、平均处理耗时、CPU使用率、新建客户端连接数、网络出入流量等信息；当存在大量非应用直接调用的命令时（例如PING、CLUSTER），或者某个命令执行次数或平均处理耗时不符合预期，都可以作为下一步排查的方向。

每秒滚动展示集群TOP10命令
每3秒滚动展示集群TOP10命令及平均处理耗时(*数值，对应的即为平均处理耗时，单位：us)

KEY前缀统计

场景介绍：当我们只是需要掌握Redis中存储的各类业务键值数量比例，以便提供给业务使用侧评估是否合理，是否存在大量无效键值可以清理；基于rdb文件可以进行深入分析，得到更多详细的内容，但是在节点数据量很大时，数据分析将占用更多的主机资源，耗时也更长。

使用keys子命令可以快速的抽取一定数量的KEY名称，对KEY按前缀统计键值数和占比信息后按前缀层级进行展示，其中第一层级会采用背景高亮，而键值占比达到一定阈值时会进行字体高亮区分：

配置参数管理

场景介绍：因为集群中会存在很多Redis节点，当我们要查看、修改某个运行参数，或者需要检查各节点配置差异时，就会因为操作繁杂，而增大操作出错的风险。

使用config子命令可以方便的检查各节点的配置差异，以及按角色来统一查询/修改指定配置参数。

检查节点配置差异

当未指定参数进行查询或修改时，默认会检查集群中各节点的配置差异，并且按各参数值数量(UNIQ)升序展示，其中存在不同值的参数行会高亮显示：

CONFIG_NAME：参数名
UNIQ：不同参数值数量，1表示各节点的参数值相同
DIFF_VALUES：参数值详情，不同参数值以逗号（,）间隔

查询/修改指定参数

集群参数查询/修改范围包括三类：所有节点（默认），所有主节点（-M），所有从节点（-S）

查询集群各节点的slowlog-log-slower-than参数值
修改集群主节点的slowlog-log-slower-than参数值为1000

使用 -w参数时，当Redis运行参数修改后，会重写Redis配置文件，这样节点重启后能够继续生效

一文掌握Redis集群实用运维工具redis-tool

关于redis-tool工具

工具可以做什么？

如何使用工具？