就AI 基础设施的演进与挑战问题之大量的Watcher与ZNode关系的问题如何解决

简介: 就AI 基础设施的演进与挑战问题之大量的Watcher与ZNode关系的问题如何解决

问题一:Watch2Paths是什么?以及它的使用场景是什么?

Watch2Paths是什么?以及它的使用场景是什么?


参考回答:

Watch2Paths是一个逆向查询表,结构为HashMap。其使用场景主要是用于统计某个Watcher到底订阅了哪些ZNode。通过该Watcher,可以在Watch2Paths中找到对应的所有ZNode列表。Watcher本质上是NIOServerCnxn,可以理解成一个连接会话。


关于本问题的更多回答可点击原文查看:

https://developer.aliyun.com/ask/660950


问题二:为什么WatchTables和Watch2Paths的关系数量会呈指数增长?

为什么WatchTables和Watch2Paths的关系数量会呈指数增长?


参考回答:

当ZNode和Watcher的数量都比较多,并且客户端订阅的ZNode也比较多,甚至全量订阅时,WatchTables和Watch2Paths记录的关系就会呈指数增长。因为每一个ZNode可能与多个Watcher有关联,而每一个Watcher也可能订阅了多个ZNode,这种多对多的关系导致了关系数量的快速增长。


关于本问题的更多回答可点击原文查看:

https://developer.aliyun.com/ask/660951


问题三:当ZNode数量为3,Watcher数量为2时,WatchTables和Watch2Paths各有多少条关系?

当ZNode数量为3,Watcher数量为2时,WatchTables和Watch2Paths各有多少条关系?


参考回答:

当ZNode数量为3,Watcher数量为2时,WatchTables和Watch2Paths各有6条关系。


关于本问题的更多回答可点击原文查看:

https://developer.aliyun.com/ask/660952


问题四:为什么Watcher与ZNode的关系条数会达到1亿?

为什么Watcher与ZNode的关系条数会达到1亿?


参考回答:

Watcher与ZNode的关系条数达到1亿,主要是因为在这个异常的ZK-Node中,ZNode和Watcher的数量都非常大,并且存在大量的订阅关系。每一个Watcher可能订阅了大量的ZNode,而每一个ZNode又可能被多个Watcher订阅,这种复杂的订阅关系导致了关系条数的剧增。


关于本问题的更多回答可点击原文查看:

https://developer.aliyun.com/ask/660953


问题五:大量的Watcher与ZNode关系会导致什么问题?

大量的Watcher与ZNode关系会导致什么问题?


参考回答:

大量的Watcher与ZNode关系会导致内存开销显著增加。因为每一条关系都需要存储,如果关系数量巨大,那么所需的内存空间也会非常大。例如,在监控中发现的异常ZK-Node中,仅存储这些关系的“壳”就需要约5.9GB的无效内存开销。


关于本问题的更多回答可点击原文查看:

https://developer.aliyun.com/ask/660954

相关文章
|
1月前
|
人工智能 中间件 数据库
沐曦 GPU 融入龙蜥,共筑开源 AI 基础设施新底座
沐曦自加入社区以来,一直与龙蜥社区在推动 AIDC OS 的开源社区建设等方面保持合作。
|
3月前
|
存储 弹性计算 运维
AI时代下阿里云基础设施的稳定性架构揭秘
计算、存储、网络作为云计算基础 IaaS 服务,一直是阿里云的核心产品,承载着百万客户的 IT 基础设施。曾经我们认为应用高可用、服务分布式可以满足客户对 IaaS 所有的稳定性诉求。
551 2
AI时代下阿里云基础设施的稳定性架构揭秘
|
2月前
|
SQL 人工智能 分布式计算
ODPS十五周年实录|构建 AI 时代的大数据基础设施
本文根据 ODPS 十五周年·年度升级发布实录整理而成,演讲信息如下: 张治国:阿里云智能集团技术研究员、阿里云智能计算平台事业部 ODPS-MaxCompute 负责人 活动:【数据进化·AI 启航】ODPS 年度升级发布
160 9
|
4月前
|
存储 人工智能 Cloud Native
科技云报到:算力即国力,智算基础设施成AI下一主战场
在数字化与AI浪潮推动下,算力已成为衡量国家竞争力的核心指标。随着大模型和生成式AI迅猛发展,中国智能算力规模持续高速增长,2024年达725.3 EFLOPS,预计2026年将突破1460 EFLOPS。未来,算力将呈现多样化、泛在化与智能绿色三大趋势,推动AI基础设施升级。以联通云为代表,通过AI全栈焕新,构建覆盖“云-网-数-智-安”的全链条智算能力,助力千行百业智能化转型。
443 5
|
1月前
|
人工智能 安全 Serverless
再看 AI 网关:助力 AI 应用创新的关键基础设施
AI 网关作为云产品推出已有半年的时间,这半年的时间里,AI 网关从内核到外在都进行了大量的进化,本文将从 AI 网关的诞生、AI 网关的产品能力、AI 网关的开放生态,以及新推出的 Serverless 版,对其进行一个全面的介绍,期望对正在进行 AI 应用落地的朋友,在 AI 基础设施选型方面提供一些参考。
546 44
|
3月前
|
存储 弹性计算 运维
AI 时代下阿里云基础设施的稳定性架构揭秘
十五年磨一剑,稳定性为何是今天的“命门”?
|
6月前
|
存储 人工智能 运维
MoE大模型迎来“原生战友”:昇腾超节点重构AI基础设施
大模型训练中,MoE架构逐渐成为主流,但也面临资源利用率低、系统稳定性差、通信带宽瓶颈三大挑战。传统AI集群难以满足其需求,而“昇腾超节点”通过自研高速互联协议、软硬件协同调度、全局内存统一编址及系统稳定性提升等创新,实现384张卡协同工作,大幅提升训练效率与推理性能。相比传统方案,昇腾超节点将训练效率提升3倍,推理吞吐提升6倍,助力MoE模型在工业、能源等领域的规模化应用。5月19日的鲲鹏昇腾创享周直播将深度解析相关技术细节。
419 15
|
2月前
|
人工智能 运维 安全
聚焦 AI 应用基础设施,云栖大会 Serverless AI 全回顾
2025 年 9 月 26 日,为期三天的云栖大会在杭州云栖小镇圆满闭幕。随着大模型技术的飞速发展,我们正从云原生时代迈向一个全新的 AI 原生应用时代。为了解决企业在 AI 应用落地中面临的高成本、高复杂度和高风险等核心挑战,阿里云基于函数计算 FC 发布一系列重磅服务。本文将对云栖大会期间 Serverless+AI 基础设施相关内容进行全面总结。

热门文章

最新文章