容器混搭搞出线上 Redis 事故,这坑我先踩为敬

简介:

事情是这样的, 现在有一个 redis 3.0 集群节点都是裸 redis 或 host 网络模式部署的容器 redis (基本上跟裸 redis 差不多), 需要把它们替换成 macvlan 网络模式的 redis 容器, 以显得我们的 dockerized redis cluster 很上档次。

这事情几个月前也搞过一次毫无压力。然而这一次又搞, 就出岔子了。(这剧本不对啊摔)

于是开始加了两个 macvlan 的容器到上述 redis 集群作为从节点,打算稍候 failover 替换掉主, 过了十分钟左右群里炸毛, 说数据都取不到,或者格式不对。上线一查, 发现正在加从节点的这个集群跟另一个集群的节点混到一起去了。这里吐槽一下 redis 集群的协议,两个正常服务的集群可以直接通过一个 cluster meet 合并成一个集群, 然后槽位分布乱了...

首先当然是紧急恢复线上业务,先拉一个新集群出来再说 (所幸这个集群的数据不需要持久化)。结果,新集群刚弄出来。又被合进了上面那个集群。(这时我满脑子都是某个科教片里两个星系合并的一段视频, 满天都在炸!

然后 cluster nodes 看了一下,发现集群里有几个节点地址变成了 172.17.x.x,这应该是 docker 的内部网段地址,所以反应过来,可能是 docker 网络配置问题,将握手流量发给了错误的节点,然后那些节点被并了进来。这时候创建一个新网段有点来不及了 (还打了个电话给已经请假回家的 @小六哇啦啦 老师...) 换了个思路,把新 redis 换个端口部署,再组个集群,观察了一会儿,这方法起作用了 -.-!!

恢复了被炸得鸡飞狗跳的线上业务之后,就开始排查问题了。线索还是之前 cluster nodes 看到的那个 172.17.x.x 网段, 测试确认了一下,从 docker 容器内连宿主机,宿主机 accept 得到的会是 172.17.x.x 这个地址。而容器内路由表是这样的:

image

确实如果宿主机的 IP 是 10.100.1.100 那么流量走的是 eth0 也就是 172.17.x.x 网卡。(10.222.0.0/16 是容器 macvlan 地址)之后就明白了,172.17.x.x 这样的网卡地址在不同物理机上是可能相同的。也就是说,遭遇的问题可能是如下过程所致

image

* 四个 redis #a #b #c #d
* #a #b 是两个 host 网络的 redis,在同一个集群中,#d 是 macvlan 部署的 redis,在另一个集群中
* #c 是一个空闲的 redis,它与 #d 恰好有相同的 eth0 地址

1> #c 通过 eth0 向 #a 发送了一个 handshake
2> #a 确认, 这时, 它认为 #c 的地址是 172.17.0.55
3> #a 将新节点地址广播给 #b
4> #b 向 172.17.0.55 发送一个握手请求,然而,此地址在它所在机器上对应的是 #d,之后两个集群就混一起去了

这也解释了为啥几个月之前这么搞的时候没出问题,应该是那时候运气好没有相同地址的容器;同时也解释了为啥不是每个纯 macvlan 模式的 redis 集群都中枪。后来在测试机房找了两个恰好相同网卡的容器,按上述思路搭了集群试了试,果然重现了。

解决方案

  • 因噎废食 : 以后别这么混搭玩了
  • 绕过 : 端口号不一样法
  • 改默认路由 : 默认就走 vlan 网卡,不过这样的话不能访问外网, 对 redis 而言没问题, 但其他业务可能就不行了
  • 加路由 : 其实可以通过在容器内加一条路由 10.100.0.0/16 走 vlan 这样宿主机 accept 到的地址就会是机房唯一的 vlan 网卡地址了,这个方案 @CMGS 正在评估中。

文章转载自 开源中国社区[https://www.oschina.net]

相关文章
|
NoSQL 关系型数据库 Redis
Docker的通俗理解和通过宿主机端口访问Redis容器的实例
本文目标:引导初学者入门Docker,理解镜像、容器和宿主机概念,学习常用Docker命令,特别是如何创建并从Redis容器通过宿主机端口访问。 关键点: - Docker核心:镜像(类)、容器(实例)、宿主机(运行环境)。 - `docker pull` 拉取镜像,如 `redis:3.0`。 - `docker run -d --name` 后台运行容器,如 `my-redis`。 - `-p` 参数做端口映射,如 `6379:6379`。 - `docker exec -it` 交互式进入容器,如 `bash` 或执行命令。
711 4
|
8月前
|
NoSQL 算法 Redis
【Docker】(3)学习Docker中 镜像与容器数据卷、映射关系!手把手带你安装 MySql主从同步 和 Redis三主三从集群!并且进行主从切换与扩容操作,还有分析 哈希分区 等知识点!
Union文件系统(UnionFS)是一种**分层、轻量级并且高性能的文件系统**,它支持对文件系统的修改作为一次提交来一层层的叠加,同时可以将不同目录挂载到同一个虚拟文件系统下(unite several directories into a single virtual filesystem) Union 文件系统是 Docker 镜像的基础。 镜像可以通过分层来进行继承,基于基础镜像(没有父镜像),可以制作各种具体的应用镜像。
868 6
|
NoSQL 关系型数据库 Redis
mall在linux环境下的部署(基于Docker容器),Docker安装mysql、redis、nginx、rabbitmq、elasticsearch、logstash、kibana、mongo
mall在linux环境下的部署(基于Docker容器),docker安装mysql、redis、nginx、rabbitmq、elasticsearch、logstash、kibana、mongodb、minio详细教程,拉取镜像、运行容器
mall在linux环境下的部署(基于Docker容器),Docker安装mysql、redis、nginx、rabbitmq、elasticsearch、logstash、kibana、mongo
|
消息中间件 NoSQL Kafka
Flink-10 Flink Java 3分钟上手 Docker容器化部署 JobManager TaskManager Kafka Redis Dockerfile docker-compose
Flink-10 Flink Java 3分钟上手 Docker容器化部署 JobManager TaskManager Kafka Redis Dockerfile docker-compose
586 4
|
NoSQL 关系型数据库 MySQL
安装Docker&镜像容器操作&使用Docker安装部署MySQL,Redis,RabbitMQ,Nacos,Seata,Minio
安装Docker&镜像容器操作&使用Docker安装部署MySQL,Redis,RabbitMQ,Nacos,Seata,Minio
1846 1
|
监控 NoSQL Redis
Redis哨兵,Redis哨兵核心功能如何一个云服务器完成6个节点的搭建-docker什么是docker是否可以把六个容器,都写到同一个ym配置中,一次都启动,不就直接保证互通问题了吗?
Redis哨兵,Redis哨兵核心功能如何一个云服务器完成6个节点的搭建-docker什么是docker是否可以把六个容器,都写到同一个ym配置中,一次都启动,不就直接保证互通问题了吗?
|
NoSQL Redis Docker
Mac上轻松几步搞定Docker与Redis安装:从下载安装到容器运行实测全程指南
Mac上轻松几步搞定Docker与Redis安装:从下载安装到容器运行实测全程指南
1836 0
|
缓存 NoSQL 关系型数据库
美团面试:MySQL有1000w数据,redis只存20w的数据,如何做 缓存 设计?
美团面试:MySQL有1000w数据,redis只存20w的数据,如何做 缓存 设计?
美团面试:MySQL有1000w数据,redis只存20w的数据,如何做 缓存 设计?
|
8月前
|
缓存 负载均衡 监控
135_负载均衡:Redis缓存 - 提高缓存命中率的配置与最佳实践
在现代大型语言模型(LLM)部署架构中,缓存系统扮演着至关重要的角色。随着LLM应用规模的不断扩大和用户需求的持续增长,如何构建高效、可靠的缓存架构成为系统性能优化的核心挑战。Redis作为业界领先的内存数据库,因其高性能、丰富的数据结构和灵活的配置选项,已成为LLM部署中首选的缓存解决方案。
836 25
|
缓存 NoSQL Java
Redis+Caffeine构建高性能二级缓存
大家好,我是摘星。今天为大家带来的是Redis+Caffeine构建高性能二级缓存,废话不多说直接开始~
1625 0