就AI 基础设施的演进与挑战问题之大量的Watcher与ZNode关系的问题如何解决

简介: 就AI 基础设施的演进与挑战问题之大量的Watcher与ZNode关系的问题如何解决

问题一:Watch2Paths是什么?以及它的使用场景是什么?

Watch2Paths是什么?以及它的使用场景是什么?


参考回答:

Watch2Paths是一个逆向查询表,结构为HashMap。其使用场景主要是用于统计某个Watcher到底订阅了哪些ZNode。通过该Watcher,可以在Watch2Paths中找到对应的所有ZNode列表。Watcher本质上是NIOServerCnxn,可以理解成一个连接会话。


关于本问题的更多回答可点击原文查看:

https://developer.aliyun.com/ask/660950


问题二:为什么WatchTables和Watch2Paths的关系数量会呈指数增长?

为什么WatchTables和Watch2Paths的关系数量会呈指数增长?


参考回答:

当ZNode和Watcher的数量都比较多,并且客户端订阅的ZNode也比较多,甚至全量订阅时,WatchTables和Watch2Paths记录的关系就会呈指数增长。因为每一个ZNode可能与多个Watcher有关联,而每一个Watcher也可能订阅了多个ZNode,这种多对多的关系导致了关系数量的快速增长。


关于本问题的更多回答可点击原文查看:

https://developer.aliyun.com/ask/660951


问题三:当ZNode数量为3,Watcher数量为2时,WatchTables和Watch2Paths各有多少条关系?

当ZNode数量为3,Watcher数量为2时,WatchTables和Watch2Paths各有多少条关系?


参考回答:

当ZNode数量为3,Watcher数量为2时,WatchTables和Watch2Paths各有6条关系。


关于本问题的更多回答可点击原文查看:

https://developer.aliyun.com/ask/660952


问题四:为什么Watcher与ZNode的关系条数会达到1亿?

为什么Watcher与ZNode的关系条数会达到1亿?


参考回答:

Watcher与ZNode的关系条数达到1亿,主要是因为在这个异常的ZK-Node中,ZNode和Watcher的数量都非常大,并且存在大量的订阅关系。每一个Watcher可能订阅了大量的ZNode,而每一个ZNode又可能被多个Watcher订阅,这种复杂的订阅关系导致了关系条数的剧增。


关于本问题的更多回答可点击原文查看:

https://developer.aliyun.com/ask/660953


问题五:大量的Watcher与ZNode关系会导致什么问题?

大量的Watcher与ZNode关系会导致什么问题?


参考回答:

大量的Watcher与ZNode关系会导致内存开销显著增加。因为每一条关系都需要存储,如果关系数量巨大,那么所需的内存空间也会非常大。例如,在监控中发现的异常ZK-Node中,仅存储这些关系的“壳”就需要约5.9GB的无效内存开销。


关于本问题的更多回答可点击原文查看:

https://developer.aliyun.com/ask/660954

相关文章
|
3月前
|
存储 人工智能 Cloud Native
科技云报到:算力即国力,智算基础设施成AI下一主战场
在数字化与AI浪潮推动下,算力已成为衡量国家竞争力的核心指标。随着大模型和生成式AI迅猛发展,中国智能算力规模持续高速增长,2024年达725.3 EFLOPS,预计2026年将突破1460 EFLOPS。未来,算力将呈现多样化、泛在化与智能绿色三大趋势,推动AI基础设施升级。以联通云为代表,通过AI全栈焕新,构建覆盖“云-网-数-智-安”的全链条智算能力,助力千行百业智能化转型。
256 5
|
5月前
|
存储 人工智能 运维
MoE大模型迎来“原生战友”:昇腾超节点重构AI基础设施
大模型训练中,MoE架构逐渐成为主流,但也面临资源利用率低、系统稳定性差、通信带宽瓶颈三大挑战。传统AI集群难以满足其需求,而“昇腾超节点”通过自研高速互联协议、软硬件协同调度、全局内存统一编址及系统稳定性提升等创新,实现384张卡协同工作,大幅提升训练效率与推理性能。相比传统方案,昇腾超节点将训练效率提升3倍,推理吞吐提升6倍,助力MoE模型在工业、能源等领域的规模化应用。5月19日的鲲鹏昇腾创享周直播将深度解析相关技术细节。
241 15
|
2月前
|
存储 弹性计算 运维
AI 时代下阿里云基础设施的稳定性架构揭秘
十五年磨一剑,稳定性为何是今天的“命门”?
|
2月前
|
存储 人工智能 安全
【阿里云基础设施 AI Tech Day】 AI Infra 建设方案及最佳实践沙龙圆
聚焦 AI Infra 建设方案及最佳实践,「智驱未来,云网随行:AI Infra 建设方案及最佳实践」沙龙阿里云基础设施 AI Tech Day 北京站于 8 月 8 日下午在北京全球创新社区顺利举办,活动现场吸引了来自月之暗面、字节、小米、爱奇艺、360、雪球、猿辅导、奥迪等 16 家相关 AI 领域领先企业或有AI建设诉求企业的 32 名业务/技术骨干参与。本次技术沙龙旨在聚焦企业建设高效、高可用的 AI Infra,深入解析 AI 驱动的原子能力与场景化架构设计,分享从基础网络建设、算力池化、存储调度,以及 VPC RDMA 性能优化、Agent 智能体出海等场景的全链路方案,助力企业
185 1
|
2月前
|
人工智能 运维 云计算
|
4月前
|
人工智能 Cloud Native 数据管理
邀您参加 KubeCon China 2025 分论坛 | 阿里云 AI 基础设施技术沙龙
KubeCon + CloudNativeCon China 2025 将于6月10-11日在香港合和酒店举办,由CNCF与Linux基金会联合主办。阿里云开发者将在大会上分享多个技术议题,涵盖AI模型分发、Argo工作流、Fluid数据管理等领域。大会前还有阿里云AI基础设施技术沙龙,聚焦AI基础设施及云原生技术实战经验。欢迎扫码报名参与!
345 65
|
8月前
|
存储 人工智能 自然语言处理
Lindorm作为AI搜索基础设施,助力Kimi智能助手升级搜索体验
月之暗面旗下的Kimi智能助手在PC网页、手机APP、小程序等全平台的月度活跃用户已超过3600万。Kimi发布一年多以来不断进化,在搜索场景推出的探索版引入了搜索意图增强、信源分析和链式思考等三大推理能力,可以帮助用户解决更复杂的搜索、调研问题。Lindorm作为一站式数据平台,覆盖数据处理全链路,集成了离线批处理、在线分析、AI推理、融合检索(正排、倒排、全文、向量......)等多项服务,支持Kimi快速构建AI搜索基础设施,显著提升检索效果,并有效应对业务快速发展带来的数据规模膨胀和成本增长。
|
4月前
|
人工智能 运维 Kubernetes
倒计时 3 天!邀您共赴维多利亚港精彩纷呈的 AI 基础设施技术盛宴!
6 月 9 日「KubeCon China 2025 分论坛|阿里云 AI 基础设施技术沙龙」火热报名中!席位有限,先到先得。热切期待您的莅临!

热门文章

最新文章