Nacos架构与原理 - 注册中心的设计原理

本文涉及的产品
传统型负载均衡 CLB,每月750个小时 15LCU
网络型负载均衡 NLB,每月750个小时 15LCU
注册配置 MSE Nacos/ZooKeeper,118元/月
简介: Nacos架构与原理 - 注册中心的设计原理

Pre



目前的网络架构是每个主机都有⼀个独立的 IP 地址,那么服务发现基本上都是通过某种方式获取到服务所部署的 IP 地址。


DNS 协议是最早将⼀个网络名称翻译为网络 IP 的协议,在最初的架构选型中,

DNS+LVS+Nginx 基本可以满足所有的 RESTful 服务的发现,此时服务的 IP 列表通常配置在 nginx或者 LVS。


后来出现了 RPC 服务,服务的上下线更加频繁,人们开始寻求⼀种能够支持动态上下线并且推送 IP 列表变化的注册中心产品。


个人开发者或者中小型公司往往会将开源产品作为选型首选。


   Zookeeper 是⼀款经典的服务注册中心产品(虽然它最初的定位并不在于此),在很长⼀段时间里,它是国人在提起 RPC 服务注册中心时心里想到的唯⼀选择,这很大程度上与 Dubbo 在中国的普及程度有关。


   Consul 和 Eureka 都出现于 2014 年,Consul 在设计上把很多分布式服务治理上要用到的功能都包含在内,可以支持服务注册、健康检查、配置管理、Service Mesh 等。而 Eureka则借着微服务概念的流行,与 SpringCloud 生态的深度结合,也获取了大量的用户。


   Nacos则携带着阿里巴巴大规模服务生产经验,试图在服务注册和配置管理这个市场上,提供给用户⼀个新的选择。


e8d6a5d8d8694b30b8d6e8d0b301a9eb.png


服务的分级模型 (服务-集群-实例三层模型)


注册中心的核心数据存储模型一般分为三层:


   服务级别:存储服务名称和网络地址,以及服务级别的属性,如权限规则等。


   集群级别:针对大规模服务,其实例可能划分为不同的集群,每个集群又有不同的配置,所以在服务和实例之间再增加一个集群级别的数据。


   实例级别:存储实例的网络地址,健康状态,权重等属性。针对实例级别的数据可以实现实例过滤、流量分配等功能。

Zookeeper的数据存储以树形K-V的形式比较抽象,可以存储任意语义的数据,但无法很好满足服务发现的数据模型需求。


Eureka和Consul的数据模型扩展到了实例级别,可以满足大多数场景,但无法满足大规模多环境部署的需求。


Nacos提出的服务-集群-实例三层模型,可以满足服务在任何场景下的全部数据存储和管理需求,这是其核心数据模型的设计思想。


所以,注册中心的数据模型设计的核心在于:


       服务级别:存储服务基本信息

       集群级别:用于大规模服务实例的划分管理

       实例级别:存储实例详细信息,实现实例管理和流量控制


一个良好的设计可以满足从小规模到大规模服务的全部数据存储和管理需求。


3f62d5e667c64f2bb179197bb28f68ec.png



数据⼀致性


   数据一致性协议主要分为两种:基于Leader的单点写一致性(CP)和对等多写一致性(AP)。

   没有一种协议能覆盖所有场景。当服务注册无心跳时,CP协议是唯一选择,因为无法通过心跳补偿数据。当有心跳时,CP协议的单点性能瓶颈不太合适,AP协议更好,如Eureka的Renew机制。

   Zookeeper使用ZAB协议保证强一致,但机房容灾能力差,不适合大规模场景。如果像Dubbo那样使用临时节点和心跳续约,Eureka的Renew机制更合适。

   Nacos支持AP和CP协议共存,以满足不同场景需求。1.0版本重构了读写和同步逻辑,将业务逻辑和底层同步逻辑隔离。业务读写抽象为Nacos数据类型,通过一致性服务同步。在选择AP或CP时使用代理和规则进行转发。

   Nacos的CP实现基于简化Raft,保证半数一致和少量数据丢失。AP实现基于自研Distro协议,参考ConfigServer和Eureka,在无第三方存储的情况下实现。Distro主要优化了逻辑和性能。




所以,一个良好的注册中心设计需要:

  1. 支持CP和AP协议,满足不同场景的需求。
  2. 好的扩展性,避免单点性能瓶颈。
  3. 强大的容灾能力,支持大规模部署。
  4. 灵活的数据读写机制,可以根据协议特点选择最优方案。
  5. 自研的一致性算法,可以更好地满足产品需求



82ee8f4519da4c85949a96d033529960.png



负载均衡


负载均衡严格来说不是注册中心的功能,注册中心主要提供服务发现。服务消费者根据自己的需求选择服务提供者。

Eureka、Zookeeper和Consul本身不提供负载均衡,Eureka的负载均衡由Ribbon实现,Consul的由Fabio实现。

阿里巴巴使用相反的思路,服务消费者不关心负载均衡,只关心高效正确访问服务。服务提供者高度关注流量调配,否则可能导致压垮服务。

服务端负载均衡给服务提供者更强的流量控制,但无法满足不同消费者的负载均衡策略需求。客户端负载均衡提供更多自定义选项,但配置不当可能导致热点或不可访问。

Ribbon的两步负载均衡:1)过滤不符合条件的服务提供者;2)在符合条件的服务提供者中选择一个,实施负载均衡策略。Ribbon提供多种策略和扩展接口。

基于标签的负载均衡非常灵活,可实现任意比例和权重的流量调配。需要标签存储和管理,如注册中心或第三方CMDB。

Nacos 0.7开始支持基于标签的负载均衡,目前实现同标签优先访问。Nacos支持的标签表达式还不丰富但会扩展。Nacos还定义了Selector作为负载均衡的抽象。

理想的负载均衡实现因人而异。Nacos试图结合服务端和客户端负载均衡,提供扩展性和选择权,简单易用。Nacos试图提供各种策略,如果没有也要允许用户扩展。

注意注册中心是否提供需要的负载均衡策略和简单的使用方式。如果没有,是否可以方便扩展实现需求的策略。



服务端侧负载均衡



客户端侧负载均衡



健康检查


Zookeeper和Eureka都实现了TTL机制,如果一定时间内客户端不发送心跳,将其摘除。Eureka允许注册服务时定义检查自身状态的健康检查方法。Dubbo和Spring Cloud将此视为默认行为。

Nacos也支持TTL机制,但与ConfigServer的机制有区别。Nacos支持临时实例使用心跳维持活性,默认心跳周期5秒。15秒无心跳设置为不健康,30秒摘除。

有些服务无法上报心跳但可以提供检测接口。这些服务同样强烈需要服务发现和负载均衡。

服务端健康检查常见方式是TCP端口探测和HTTP接口返回码探测,支持大多数场景。特殊场景需要特殊接口,如判断是否主库的MYSQL命令。

客户端健康检查关注客户端心跳方式和服务端摘除不健康客户端机制。服务端健康检查关注探测客户端方式、灵敏度和设置客户端健康状态机制。

服务端探测更复杂,需要执行接口判断返回结果、重试机制和线程池管理。客户端探测只需等待心跳刷新TTL。

服务端健康检查无法摘除不健康实例,需要维持所有注册实例的探测任务。客户端可以随时摘除不健康实例,减轻服务端压力。

Nacos既支持客户端也支持服务端健康检查,同一服务可以切换模式。多样性健康检查方式支持各种服务使用Nacos负载均衡。

Nacos下一步要实现健康检查方式的用户扩展机制,支持用户传入业务语义请求由Nacos执行,实现健康检查定制。



144353f943a146f5ba6e13c0c42b3878.png



总之,Nacos通过支持多种健康检查方式,让更多类型的服务可以使用其负载均衡功能。同时也要继续扩展健康检查方式,进一步增强定制性。


性能与容量


   影响性能的因素很多,如一致性协议、机器配置、集群规模、数据量、数据结构和逻辑设计等。


   在服务发现场景下,读写性能都很关键,但性能更高并不一定更好,可能要牺牲其他方面。


   Zookeeper写性能可达万级TPS,得益于精巧设计,但需要前提:仅进行K-V写入,无聚合或健康检查等;Paxos协议限制规模,3-5节点不能满足大规模服务订阅查询。


   评估容量不仅考虑现有服务规模,也要预测未来3-5年的扩展规模。阿里内部中间件支撑百万级实例,面临的容量挑战不小于任何互联网公司。容量不仅是实例数,还有单个服务实例数、订阅者数和QPS等。


   Nacos淘汰Zookeeper和Eureka,容量是一个非常重要的因素。


   Zookeeper存储节点数可达百万级,但并不代表全部容量。大量实例上下线时表现不稳定,推送机制缺陷导致客户端资源占用上升和性能下降。


   Eureka在5000个服务实例左右就出现不可用问题,高并发线程数会使Eureka崩溃。1000个左右的实例大多数注册中心都可以满足,Eureka也未在国内看到广泛的容量或性能问题报告。


   Nacos开源版本可注册1千万服务实例,10万个服务。实际部署会因机器、网络、JVM参数不同而差别。


   Nacos 1.0.0压力测试结果:

       容量:注册实例1000万,服务10万

       并发:读写QPS可达每秒5万

       扩展性:预期机器数线性扩展性能

       延迟:99%在10毫秒以内,极端场景100毫秒


总之,Nacos通过测试展示了较高的容量和性能,同时具有较好的扩展性,这些优势有助于满足用户的容量和性能需求。但实际使用中仍需根据自己的场景进行测试评估.



e13d0c68aa194428bc65808681054b9c.png



完整的测试报告可以参考 Nacos 官网:

https://nacos.io/en-us/docs/nacos-naming-benchmark.html

https://nacos.io/en-us/docs/nacos-config-benchmark.html



易用性


易用性包括API和客户端简单性、文档完整易懂、控制台界面完善等。对开源产品还包括社区活跃度。


Zookeeper易用性较差:


   客户端使用复杂,无针对服务发现的API和模型

   多语言支持不好,无好用控制台进行运维管理


Eureka和Nacos较Zookeeper改善很多:


   有针对服务发现的客户端和Spring Cloud Starter,低成本无感知服务注册与发现

   标准HTTP接口,支持多语言和跨平台


Eureka 2.0宣布停止开发,易用性提高后续投入应减少。Nacos继续建设:


增强控制台能力,增加控制台登录权限管控、监控与Metrics暴露

不断完善文档,开发多语言SDK等



集群扩展性


Nacos支持两种模式:


  • AP,如Eureka,支持临时实例,替代Zookeeper和Eureka,支持机房容灾
  • CP,支持持久化实例,不支持双机房容灾


f191655258d14749a145d83b1413257a.png

Zookeeper和Eureka无官方多数据中心方案。Nacos基于阿里内部经验,采用Nacos-Sync组件在数据中心同步全量数据。Nacos-Sync不仅同步Nacos集群,也同步Eureka、Zookeeper、Kubernetes和Consul。

3b1fa435c59e494d92cfb1539c749445.png


总之,Nacos支持临时实例AP模式和持久化实例CP模式来兼容不同场景。AP模式可替代Zookeeper和Eureka,支持机房容灾,但CP模式不支持。Nacos也提供异地多活和多数据中心方案,依赖Nacos-Sync实现数据中心同步。而Zookeeper和Eureka在这些方面支持较差。但具体选择还需考虑自身需求和使用成熟度。




用户扩展性


   在框架设计中,扩展性是重要原则。Spring等通过接口及动态类加载实现用户扩展约定接口和自定义逻辑。


   在服务器设计中,用户扩展审慎,可能影响可用性和排查难度。良好SPI可能带来稳定性和运维风险,需仔细考虑。


总之,框架设计注重扩展性,但服务器端考虑稳定性,需审慎。开源软件通过直接贡献实现扩展,是好模式。Zookeeper和Eureka不支持。Runtime扩展更佳,可简单解耦,对某功能设计时考虑。产品应支持用户Runtime扩展,需健壮SPI。Nacos已/将开放CMDB、健康检查、负载均衡扩展,支持解耦各需求。

相关实践学习
基于MSE实现微服务的全链路灰度
通过本场景的实验操作,您将了解并实现在线业务的微服务全链路灰度能力。
相关文章
|
24天前
|
Cloud Native Java Nacos
微服务注册中心-Nacos概述
该博客文章提供了对Nacos的全面概述,包括其基本介绍、与Spring Cloud集成的优势、主要功能以及如何在Spring Cloud Alibaba项目中作为服务注册中心使用Nacos。文章解释了Nacos是一个动态服务发现、配置管理和服务管理平台,支持服务发现、健康监测、动态配置、DNS服务和元数据管理。还介绍了如何下载和启动Nacos服务器,以及如何将微服务注册到Nacos中,包括修改pom.xml文件引入依赖、配置application.properties文件和使用@EnableDiscoveryClient注解开启服务注册发现功能。
微服务注册中心-Nacos概述
|
10天前
|
存储 SQL Cloud Native
Hologres 的架构设计与工作原理
【9月更文第1天】随着大数据时代的到来,实时分析和处理数据的需求日益增长。传统的数据仓库在处理大规模实时数据分析时逐渐显露出性能瓶颈。为了解决这些问题,阿里巴巴集团研发了一款名为 Hologres 的新型云原生交互式分析数据库。Hologres 能够支持 SQL 查询,并且能够实现实时的数据写入和查询,这使得它成为处理大规模实时数据的理想选择。
36 2
|
13天前
|
存储 分布式计算 Hadoop
ChunkServer 原理与架构详解
【8月更文第30天】在分布式文件系统中,ChunkServer 是一个重要的组件,负责存储文件系统中的数据块(chunks)。ChunkServer 的设计和实现对于确保数据的高可用性、一致性和持久性至关重要。本文将深入探讨 ChunkServer 的核心原理和内部架构设计,并通过代码示例来说明其实现细节。
17 1
|
19天前
|
数据采集 存储 Java
Flume Agent 的内部原理分析:深入探讨 Flume 的架构与实现机制
【8月更文挑战第24天】Apache Flume是一款专为大规模日志数据的收集、聚合及传输而设计的分布式、可靠且高可用系统。本文深入解析Flume Agent的核心机制并提供实际配置与使用示例。Flume Agent由三大组件构成:Source(数据源)、Channel(数据缓存)与Sink(数据目的地)。工作流程包括数据采集、暂存及传输。通过示例配置文件和Java代码片段展示了如何设置这些组件以实现日志数据的有效管理。Flume的强大功能与灵活性使其成为大数据处理及实时数据分析领域的优选工具。
40 1
|
20天前
|
消息中间件 存储 SQL
Kafka架构及其原理
Kafka架构及其原理
52 1
|
27天前
|
存储 缓存 Java
Eureka原理与实践:深入探索微服务架构的核心组件
在微服务架构日益盛行的今天,服务之间的注册与发现成为了保证系统高可用性和灵活性的关键。Eureka,作为Netflix开源的服务注册与发现框架,凭借其简单、健壮的特性,在微服务领域占据了举足轻重的地位。本文将深入剖析Eureka的原理,并通过实践案例展示其在实际项目中的应用,以期为开发者提供一个高端、深入的视角。
|
2月前
|
Java Nacos 数据库
使用 nacos 搭建注册中心及配置中心
使用 nacos 搭建注册中心及配置中心
63 5
|
2月前
|
NoSQL Java Nacos
SpringCloud集成Seata并使用Nacos做注册中心与配置中心
SpringCloud集成Seata并使用Nacos做注册中心与配置中心
71 3
|
13天前
|
安全 Nacos 数据安全/隐私保护
升级指南:从Nacos 1.3.0 到 2.3.0,并兼容 Seata 的鉴权配置
本文详细介绍了如何在微服务环境下从 Nacos 1.3.0 升级到 2.3.0,并确保 Seata 各版本的兼容性。作者小米分享了升级过程中的关键步骤,包括备份配置、更新鉴权信息及验证测试等,并解答了常见问题。通过这些步骤,可以帮助读者顺利完成升级并提高系统的安全性与一致性。
57 8
升级指南:从Nacos 1.3.0 到 2.3.0,并兼容 Seata 的鉴权配置
|
26天前
|
运维 Java Nacos
Spring Cloud应用框架:Nacos作为服务注册中心和配置中心
Spring Cloud应用框架:Nacos作为服务注册中心和配置中心