分布式系统应用之服务发现!

本文涉及的产品
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: 分布式系统应用之服务发现!

什么是服务发现?

服务 → ip:port list的查找表

为什么需要服务发现?

虚拟化,容器技术,云平台 --> ip 动态分配

微服务化 --> 应用拆分,相互调用增加

方案演进

硬编码:只适用稳定的服务方

dns: 缓存导致更新扩散有延迟,故障转移问题

dns + loadbalancer/VIP: 基础设置配置方案(mysql,redis)

服务发现做什么?

服务注册/注销

失败节点检测

服务列表查询

实现分类

发现

client-side discovery: client请求前从registry查询ip:port列表,选择一个发请求 (eureka)

server-side discovery: 加一个lb/router,做代理转发,从registry获取服务ip的逻辑放到代理层 (nginx,k8s)

注册

self-registration:服务方在启动跟停止时主动上报注册中心 (eureka, nacos)

third-party registration:第三方模块代替服务方向注册中心上报 (consul, nacos)

实现细节 - 关注点

client端查询:缓存及更新

server端查找表维护:注册信息同步及失败节点检测

服务发现实现案例

eureka

client端:

所有查询走本地缓存

两个定时任务

  • 心跳:默认30s一次,服务续期
  • 缓存刷新:第一次全量,后面拉delta,即全部app的hash,发生变化触发全量刷新

server端:

客户端查询&注册表维护:多级缓存,读写分离,内层实时写,外层只读存储,30s更新一次

集群成员信息同步:定时任务,从已知节点同步

集群间数据同步:所有注册,下线,心跳,淘汰请求走异步队列同步peer node

失败检测:默认超3个周期无心跳,进入淘汰队列

  • 自我保护机制:如果一次清理超过15%,停止,保留当前全部数据直到恢复或人为干预,避免网络抖动触发大量服务下线

保证可用性,不保证一致性,server间数据同步可能延迟

consul

两种agent模式:

server → 负责维护注册表 & rpc响应

client → 转发请求 & 心跳检查

client端缓存:

agent支持参数指定最大过期时间

agent block query数据变更,client查询永远走缓存,超过3天不请求,不再监听

状态同步:

一个dc内client与server是一个集群,可以相互发现与广播信息,client不一定要配置server信息

server端,dc间wan gossip,dc内server之间raft保证一致性

client端参与lan gossip,广播成员以及服务状态,优先udp,重试几次降级到tcp

所有rpc请求均转发到对应dc内的leader处理

跨dc请求,由请求发起方的dc leader转发到目标dc的leader (dc间不同步数据)

server数据默认不做持久化

保证一致性,牺牲写性能

读一致性级别

  • default: leader leasing期限内提供读
  • consistent:leader每次rpc都跟folowler确认,有延迟
  • stale:任意时刻,任何节点都能提供读

失败检测:

agent主动进行心跳检测,失败检测通过集群内所有节点监控传播

agent下线,注册到该agent下的服务信息都会丢失

lifeguard,增强swim协议,动态调整超时时间,降低误判率

几类服务发现产品对比

eureka consul nacos etcd zk
api 服务发现rest api rest api & dns rest api & dns rest api & grpc zkClient
watcher long polling (eureka2) long polling udp key watcherclient long polling,server端定时任务遍历日志找某个版本之后的变更通知 key watcherclient 注册handler到本地,server保存回掉信息,触发时调用
心跳检查 client heartbeat server探活(支持mysql,redis之类无法嵌入client的基础服务) 注册时配了healthcheck的server端检查,client端默认注册就会启动beat定时任务 put key & ttl 并定时续期 依赖临时节点,跟server心跳保持
客户端缓存策略&更新策略 定时刷新,最多60s延迟 可手动指定缓存期限 一个service一个schedule任务定时更新
持久化 可手动持久化,用于还原备份 支持 v3支持,写wal 支持,快照 + 事务日志
cap ap cp(raft) ap(distrio) & cp (raft) cp(raft) cp(zab)



相关文章
|
2月前
|
人工智能 文字识别 Java
SpringCloud+Python 混合微服务,如何打造AI分布式业务应用的技术底层?
尼恩,一位拥有20年架构经验的老架构师,通过其深厚的架构功力,成功指导了一位9年经验的网易工程师转型为大模型架构师,薪资逆涨50%,年薪近80W。尼恩的指导不仅帮助这位工程师在一年内成为大模型架构师,还让他管理起了10人团队,产品成功应用于多家大中型企业。尼恩因此决定编写《LLM大模型学习圣经》系列,帮助更多人掌握大模型架构,实现职业跃迁。该系列包括《从0到1吃透Transformer技术底座》、《从0到1精通RAG架构》等,旨在系统化、体系化地讲解大模型技术,助力读者实现“offer直提”。此外,尼恩还分享了多个技术圣经,如《NIO圣经》、《Docker圣经》等,帮助读者深入理解核心技术。
SpringCloud+Python 混合微服务,如何打造AI分布式业务应用的技术底层?
|
3月前
|
存储 NoSQL Java
分布式session-SpringSession的应用
Spring Session 提供了一种创建和管理 Servlet HttpSession 的方案,默认使用外置 Redis 存储 Session 数据,解决了 Session 共享问题。其特性包括:API 及实现用于管理用户会话、以应用容器中性方式替换 HttpSession、简化集群会话支持、管理单个浏览器实例中的多个用户会话以及通过 headers 提供会话 ID 以使用 RESTful API。Spring Session 通过 SessionRepositoryFilter 实现,拦截请求并转换 request 和 response 对象,从而实现 Session 的创建与管理。
分布式session-SpringSession的应用
|
3月前
|
存储 NoSQL Java
分布式session-SpringSession的应用
Spring Session 提供了一种创建和管理 Servlet HttpSession 的方案,默认使用外置 Redis 存储 Session 数据,解决 Session 共享问题。其主要特性包括:提供 API 和实现来管理用户会话,以中立方式替换应用程序容器中的 HttpSession,简化集群会话支持,并在单个浏览器实例中管理多个用户会话。此外,Spring Session 允许通过 headers 提供会话 ID 以使用 RESTful API。结合 Spring Boot 使用时,可通过配置 Redis 依赖和支持缓存的依赖实现 Session 共享。
分布式session-SpringSession的应用
|
3月前
|
存储 运维 应用服务中间件
阿里云分布式存储应用示例
通过阿里云EDAS,您可以轻松部署与管理微服务应用。创建应用时,使用`CreateApplication`接口基于模板生成新应用,并获得包含应用ID在内的成功响应。随后,利用`DeployApplication`接口将应用部署至云端,返回"Success"确认部署成功。当业务调整需下线应用时,调用`ReleaseApplication`接口释放资源。阿里云EDAS简化了应用全生命周期管理,提升了运维效率与可靠性。[相关链接]提供了详细的操作与返回参数说明。
|
3月前
|
Dubbo Java 应用服务中间件
分布式(基础)-RMI简单的应用
分布式(基础)-RMI简单的应用
|
4月前
|
机器学习/深度学习 分布式计算 PyTorch
大规模数据集管理:DataLoader在分布式环境中的应用
【8月更文第29天】随着大数据时代的到来,如何高效地处理和利用大规模数据集成为了许多领域面临的关键挑战之一。本文将探讨如何在分布式环境中使用`DataLoader`来优化大规模数据集的管理与加载过程,并通过具体的代码示例展示其实现方法。
211 1
|
4月前
|
开发者 云计算 数据库
从桌面跃升至云端的华丽转身:深入解析如何运用WinForms与Azure的强大组合,解锁传统应用向现代化分布式系统演变的秘密,实现性能与安全性的双重飞跃——你不可不知的开发新模式
【8月更文挑战第31天】在数字化转型浪潮中,传统桌面应用面临新挑战。本文探讨如何融合Windows Forms(WinForms)与Microsoft Azure,助力应用向云端转型。通过Azure的虚拟机、容器及无服务器计算,可轻松解决性能瓶颈,满足全球用户需求。文中还提供了连接Azure数据库的示例代码,并介绍了集成Azure Storage和Functions的方法。尽管存在安全性、网络延迟及成本等问题,但合理设计架构可有效应对,帮助开发者构建高效可靠的现代应用。
33 0
|
4月前
|
UED 存储 数据管理
深度解析 Uno Platform 离线状态处理技巧:从网络检测到本地存储同步,全方位提升跨平台应用在无网环境下的用户体验与数据管理策略
【8月更文挑战第31天】处理离线状态下的用户体验是现代应用开发的关键。本文通过在线笔记应用案例,介绍如何使用 Uno Platform 优雅地应对离线状态。首先,利用 `NetworkInformation` 类检测网络状态;其次,使用 SQLite 实现离线存储;然后,在网络恢复时同步数据;最后,通过 UI 反馈提升用户体验。
99 0
|
4月前
|
机器学习/深度学习 TensorFlow 数据处理
分布式训练在TensorFlow中的全面应用指南:掌握多机多卡配置与实践技巧,让大规模数据集训练变得轻而易举,大幅提升模型训练效率与性能
【8月更文挑战第31天】本文详细介绍了如何在Tensorflow中实现多机多卡的分布式训练,涵盖环境配置、模型定义、数据处理及训练执行等关键环节。通过具体示例代码,展示了使用`MultiWorkerMirroredStrategy`进行分布式训练的过程,帮助读者更好地应对大规模数据集与复杂模型带来的挑战,提升训练效率。
94 0
|
2月前
|
NoSQL Java Redis
太惨痛: Redis 分布式锁 5个大坑,又大又深, 如何才能 避开 ?
Redis分布式锁在高并发场景下是重要的技术手段,但其实现过程中常遇到五大深坑:**原子性问题**、**连接耗尽问题**、**锁过期问题**、**锁失效问题**以及**锁分段问题**。这些问题不仅影响系统的稳定性和性能,还可能导致数据不一致。尼恩在实际项目中总结了这些坑,并提供了详细的解决方案,包括使用Lua脚本保证原子性、设置合理的锁过期时间和使用看门狗机制、以及通过锁分段提升性能。这些经验和技巧对面试和实际开发都有很大帮助,值得深入学习和实践。
太惨痛: Redis 分布式锁 5个大坑,又大又深, 如何才能 避开 ?