使用阿里云配置管理ACM实现zookeeper依赖服务的透明Failover迁移

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
云原生网关 MSE Higress,422元/月
注册配置 MSE Nacos/ZooKeeper,118元/月
简介: 在本文中我们介绍了,如何利用ACM解决服务发现场景中的下游依赖服务透明替换节点,调整服务连接超时参数等问题。 通过该例,我们可以看到,在将应用的静态配置文件方式迁移到ACM之后,通过应用主动动态监听配置变更,可以在应用和运维层面获得诸多好处,这包括省去了应用配置变更时,应用往往需要重新发布或者重启的成本,同时使Dev和Ops在配置变更场景下2者之间的沟通成本降到最低。

使用阿里云配置管理ACM实现zookeeper依赖服务的透明Failover迁移

摘要:在访问依赖的服务过程中,我们通常会通过在程序或者配置文件中写死ip列表的形式来发现下游服务,但在下游服务集群出现ip迁移的时候,会导致所有依赖该服务的上游应用重新配置ip列表并重新发布或者重启才能生效。本文介绍了如何使用阿里云配置管理产品ACM,并以zookeeper集群服务为例,如何方便的在数据中心里实现透明的替换zookeeper坏掉的机器节点。

场景介绍

在一个数据中心里,一个zookeeper集群常常会服务多条业务线或者业务系统,每个业务线或者业务系统有自己的开发团队,而zookeeper这类公共服务则会有专门的运维或者团队负责保障其服务可用性和连续性。

业务应用通过Apache Curator客户端或者原生的zookeeper客户端访问zookeeper服务,在这个过程中,必须在应用程序里指定connectString,即zookeeper服务所在的机器的ip列表, 代码示例如下:

        final String connectString = "192.168.1.151:2181,192.168.1.152:2181,192.168.1.153:2181,192.168.1.154:2181,192.168.1.155:2181";
        final int sessionTimeoutInMs = 15000;
        final int connectionTimeoutInMs = 1000;
        final String appNs = "app1";

        CuratorFrameworkFactory.Builder builder = CuratorFrameworkFactory.builder();
        
        CuratorFramework zkClient = builder
                       .connectString(connectString)
                       .connectionTimeoutMs(connectionTimeoutInMs)
                       .sessionTimeoutMs(sessionTimeoutInMs)
                       .namespace(appNs)
                       .retryPolicy(new RetryNTimes(6, 100))
                       .build();
        
        zkClient.start();

但在zookeeper的生产运行过程中,zookeeper服务集群可能会遇到机器故障,机器迁移等情况,这个过程则需要zookeeper运维人员替换节点,将服务迁移到新的ip节点,整个流程,如下图所示,

acm_zk_pic1

方案1 使用DNS或者VIP的服务发现方案

该方案如图所示:
acm_zk_pic2

在这个方案中,可以将zk服务ip挂在一个dns域名或者vip上.
这样在zookeeper替换节点时,应用无感知,这个方案即服务发现方案。

  • 优点

    简单易理解,但因DNS ttl缓存失效问题,会有收敛时间。
    
  • 缺点

    想针对zookeeper集群同时设置超时时间,应用使用zookeeper的chroot/namespace,用于连接zookeeper服务的用户名,密码等配置项,并根据负载等情况动态变更这些连接相关配置无法通过DNS,VIP系统做到。
    

方案2 使用ACM方案

我们将zookeeper集群的服务ip列表,连接超时,session超时参数,chroot,当前的用户名,密码等放在一个ACM配置里。

acm_zk_pic3

然后通过ACM SDK监听这个配置的变更,这里我们可以使用curator client提供的EnsembleProvider功能来结合ACM达到动态监听配置服务ip列表变更的效果。

示例代码如下

import java.io.IOException;
import java.io.StringReader;
import java.util.Properties;
import java.util.concurrent.Executor;
import java.util.concurrent.Executors;
import java.util.concurrent.atomic.AtomicReference;
import org.apache.curator.ensemble.EnsembleProvider;
import com.alibaba.edas.acm.listener.ConfigChangeListener;
import com.alibaba.edas.acm.ConfigService;
import com.alibaba.edas.acm.exception.ConfigException;

public class ACMEnsembleProvider implements EnsembleProvider {

    private static final String ACM_ZK_CFG_DATAID = "com.taobao.zookeeper.connCfg";
    private static final String ACM_ZK_CFG_GROUP = "zookeeper";
    private static final int ACM_TIME_OUT_MS = 3000;

    private final static Executor acmCallBackExecutor = Executors.newSingleThreadScheduledExecutor();
    private ConfigChangeListener configChangeListener;
    private final AtomicReference<String> connectionString = new AtomicReference<String>("");
    private Properties cfg = new Properties();

    public String getZkHosts() {
        // 从ACM控制台该配置的"示例代码"中拷贝对应的值
        ConfigService.init("${domain}", "${namespace}", "${accessKey}", "${secretKey}");

        try {
            String zkServiceCfg = ConfigService.getConfig(ACM_ZK_CFG_DATAID, ACM_ZK_CFG_GROUP, ACM_TIME_OUT_MS);
            cfg.load(new StringReader(zkServiceCfg));

            String connectString = cfg.getProperty("connectString");
            connectionString.set(connectString);

            return connectString;
        } catch (ConfigException e1) {
            // logger.warn("acm.getConfig error with dataId : " +
            // dataIdZkHosts, e);
            e1.printStackTrace();
            return null;
        } catch (IOException e) {
            e.printStackTrace();
            return null;
        }
    }

    public void start() throws Exception {
        configChangeListener = new ConfigChangeListener() {

            public Executor getExecutor() {
                return acmCallBackExecutor;
            }

            public void receiveConfigInfo(String configInfo) {
                // logger.warn("receive zkHosts change in diamond, dataId : " +
                // dataIdZkHosts + ", changed zkHosts : "
                // + configInfo);
                try {
                    cfg.load(new StringReader(configInfo));
                } catch (IOException e) {
                    // process exception
                    e.printStackTrace();
                }

                String connectString = cfg.getProperty("connectString");
                connectionString.set(connectString);
            }
        };
        ConfigService.addListener(ACM_ZK_CFG_DATAID, ACM_ZK_CFG_GROUP, configChangeListener);
    }

    public String getConnectionString() {
        return connectionString.get();
    }

    public void close() throws IOException {
        // ConfigService.removeListener(ACM_ZK_CFG_DATAID, ACM_ZK_CFG_GROUP,
        // configChangeListener);
    }

}

当zookeeper集群的节点挂掉,需要更换ip列表或者修改超时参数,应用的znode配额quota时,zookeeper运维人员只需要在ACM上修改相关的配置项,ACM将自动分发变更到所有的应用系统。

该方案如图所示:

acm_zk_pic5

在上例中,我们可以看到,应用系统开发人员(Dev)和运维人员(Ops)之间省去了沟通成本,应用系统也省去了因连接相关的配置变更导致的应用重新启动或者发布应用的变更成本。

总结

在本文中我们介绍了,如何利用ACM解决服务发现场景中的下游依赖服务透明替换节点,调整服务连接超时参数等问题。
通过该例,我们可以看到,在将应用的静态配置文件方式迁移到ACM之后,通过应用主动动态监听配置变更,可以在应用和运维层面获得诸多好处,这包括省去了应用配置变更时,应用往往需要重新发布或者重启的成本,同时使Dev和Ops在配置变更场景下2者之间的沟通成本降到最低。

相关实践学习
基于MSE实现微服务的全链路灰度
通过本场景的实验操作,您将了解并实现在线业务的微服务全链路灰度能力。
相关文章
|
2月前
|
监控 负载均衡 Cloud Native
ZooKeeper分布式协调服务详解:面试经验与必备知识点解析
【4月更文挑战第9天】本文深入剖析ZooKeeper分布式协调服务原理,涵盖核心概念如Server、Client、ZNode、ACL、Watcher,以及ZAB协议在一致性、会话管理、Leader选举中的作用。讨论ZooKeeper数据模型、操作、会话管理、集群部署与管理、性能调优和监控。同时,文章探讨了ZooKeeper在分布式锁、队列、服务注册与发现等场景的应用,并在面试方面分析了与其它服务的区别、实战挑战及解决方案。附带Java客户端实现分布式锁的代码示例,助力提升面试表现。
431 2
|
2月前
|
Apache 流计算 OceanBase
手把手教你实现 OceanBase 数据到阿里云数据库 SelectDB 内核版 Apache Doris 的便捷迁移|实用指南
本文介绍了如何将数据从 OceanBase 迁移到阿里云数据库 SelectDB 内核版 Apache Doris。提供 3 种数据同步方法 1. 使用 DataX,下载 DataX 并编写配置文件,通过 OceanBaseReader 和 DorisWriter 进行数据迁移。 2. 利用 Apache Doris 的 Catalog功 能,将 OceanBase 表映射到 Doris 并插入数据。 3. 通过Flink CDC,设置 OceanBase 环境,配置 Flink 连接器,实现实时数据同步。
手把手教你实现 OceanBase 数据到阿里云数据库 SelectDB 内核版 Apache Doris 的便捷迁移|实用指南
|
5天前
|
消息中间件 Cloud Native 安全
《阿里云产品四月刊》—得物 ZooKeeper SLA 也可以 99.99%丨最佳实践(1)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
《阿里云产品四月刊》—得物 ZooKeeper SLA 也可以 99.99%丨最佳实践(1)
|
5天前
|
Cloud Native 数据库 存储
《阿里云产品四月刊》—得物 ZooKeeper SLA 也可以 99.99%丨最佳实践(2)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
《阿里云产品四月刊》—得物 ZooKeeper SLA 也可以 99.99%丨最佳实践(2)
|
5天前
|
Cloud Native 数据库 测试技术
《阿里云产品四月刊》—得物 ZooKeeper SLA 也可以 99.99%丨最佳实践(3)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
《阿里云产品四月刊》—得物 ZooKeeper SLA 也可以 99.99%丨最佳实践(3)
|
6天前
|
运维 Java Devops
阿里云云效操作报错合集之在进行GitLab代码分支迁移时遇到报错,一般是什么原因
本合集将整理呈现用户在使用过程中遇到的报错及其对应的解决办法,包括但不限于账户权限设置错误、项目配置不正确、代码提交冲突、构建任务执行失败、测试环境异常、需求流转阻塞等问题。阿里云云效是一站式企业级研发协同和DevOps平台,为企业提供从需求规划、开发、测试、发布到运维、运营的全流程端到端服务和工具支撑,致力于提升企业的研发效能和创新能力。
|
6天前
|
持续交付 开发工具 git
阿里云云效产品使用问题之在云效代码域中gitlab使用docker安装的,迁移时遇到“获取企业信息失败”,是什么原因
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。
|
6天前
|
敏捷开发 测试技术 持续交付
阿里云云效产品使用问题之如何在新版本的云效上迁移老版本的流水线
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。
阿里云云效产品使用问题之如何在新版本的云效上迁移老版本的流水线
|
9天前
|
SQL 人工智能 API
openai停止中国的api服务,但是性能相当的阿里云免费提供迁移
OpenAI暂停中国API服务,阿里云百炼响应迅速,提供免费tokens(2200万)与迁移服务给受影响开发者。Qwen2-72B与GPT-4同列全球第四(HELM MMLU榜)。Qwen-plus调用成本仅GPT-4的1/50。阿里云百炼以开放性著称,兼容LlamaIndex等,支持多种数据源及自定义组件,加速AI应用集成。官网有丰富资源,助力快速上手大模型开发。
|
2月前
|
安全 Linux 网络安全
其他云平台的业务迁移到阿里云最新优惠,使用服务器迁移中心SMC快速迁移简介
越来越多的个人和企业希望将部署在其他云平台或者IDC企业的业务迁移到阿里云上,对于这部分用户来说,最为关注的问题就是迁移到阿里云有没有什么优惠,迁移过程是否麻烦,针对这部分用户的需求,阿里云推出了5亿算力补贴,针对迁移用户做出补贴优惠,在迁移过程中,用户可以自行做数据传输迁移,也可以使用阿里云的服务器迁移中心,快速完成迁移。本文为大家介绍其他云服务商的业务迁移到阿里云最新优惠政策,以及使用服务器迁移中心实现快速迁移的方法。
其他云平台的业务迁移到阿里云最新优惠,使用服务器迁移中心SMC快速迁移简介

热门文章

最新文章