就AI 基础设施的演进与挑战问题之大量的Watcher与ZNode关系的问题如何解决

简介: 就AI 基础设施的演进与挑战问题之大量的Watcher与ZNode关系的问题如何解决

问题一:Watch2Paths是什么?以及它的使用场景是什么?

Watch2Paths是什么?以及它的使用场景是什么?


参考回答:

Watch2Paths是一个逆向查询表,结构为HashMap。其使用场景主要是用于统计某个Watcher到底订阅了哪些ZNode。通过该Watcher,可以在Watch2Paths中找到对应的所有ZNode列表。Watcher本质上是NIOServerCnxn,可以理解成一个连接会话。


关于本问题的更多回答可点击原文查看:

https://developer.aliyun.com/ask/660950


问题二:为什么WatchTables和Watch2Paths的关系数量会呈指数增长?

为什么WatchTables和Watch2Paths的关系数量会呈指数增长?


参考回答:

当ZNode和Watcher的数量都比较多,并且客户端订阅的ZNode也比较多,甚至全量订阅时,WatchTables和Watch2Paths记录的关系就会呈指数增长。因为每一个ZNode可能与多个Watcher有关联,而每一个Watcher也可能订阅了多个ZNode,这种多对多的关系导致了关系数量的快速增长。


关于本问题的更多回答可点击原文查看:

https://developer.aliyun.com/ask/660951


问题三:当ZNode数量为3,Watcher数量为2时,WatchTables和Watch2Paths各有多少条关系?

当ZNode数量为3,Watcher数量为2时,WatchTables和Watch2Paths各有多少条关系?


参考回答:

当ZNode数量为3,Watcher数量为2时,WatchTables和Watch2Paths各有6条关系。


关于本问题的更多回答可点击原文查看:

https://developer.aliyun.com/ask/660952


问题四:为什么Watcher与ZNode的关系条数会达到1亿?

为什么Watcher与ZNode的关系条数会达到1亿?


参考回答:

Watcher与ZNode的关系条数达到1亿,主要是因为在这个异常的ZK-Node中,ZNode和Watcher的数量都非常大,并且存在大量的订阅关系。每一个Watcher可能订阅了大量的ZNode,而每一个ZNode又可能被多个Watcher订阅,这种复杂的订阅关系导致了关系条数的剧增。


关于本问题的更多回答可点击原文查看:

https://developer.aliyun.com/ask/660953


问题五:大量的Watcher与ZNode关系会导致什么问题?

大量的Watcher与ZNode关系会导致什么问题?


参考回答:

大量的Watcher与ZNode关系会导致内存开销显著增加。因为每一条关系都需要存储,如果关系数量巨大,那么所需的内存空间也会非常大。例如,在监控中发现的异常ZK-Node中,仅存储这些关系的“壳”就需要约5.9GB的无效内存开销。


关于本问题的更多回答可点击原文查看:

https://developer.aliyun.com/ask/660954

相关文章
|
4月前
|
存储 人工智能 弹性计算
AI计算加速渗透、基础设施全面升级…云栖大会重磅发布全览
阿里云全面展示了全新升级后的AI Infra系列产品及能力。通过全栈优化,阿里云打造出一套稳定和高效的AI基础设施,连续训练有效时长大于99%,模型算力利用率提升20%以上。
287 27
|
5天前
|
人工智能 安全 大数据
PAI年度发布:GenAI时代AI基础设施的演进
本文介绍了AI平台在大语言模型时代的新能力和发展趋势。面对推理请求异构化、持续训练需求及安全可信挑战,平台推出了一系列优化措施,包括LLM智能路由、多模态内容生成服务、serverless部署模式等,以提高资源利用效率和降低使用门槛。同时,发布了训推一体调度引擎、竞价任务等功能,助力企业更灵活地进行训练与推理任务管理。此外,PAI开发平台提供了丰富的工具链和最佳实践,支持从数据处理到模型部署的全流程开发,确保企业和开发者能高效、安全地构建AI应用,享受AI带来的红利。
|
19天前
|
人工智能 大数据 测试技术
自主和开放并举 探索下一代阿里云AI基础设施固件创新
12月13日,固件产业技术创新联盟产业峰会在杭州举行,阿里云主导的开源固件测试平台发布和PCIe Switch固件技术亮相,成为会议焦点。
|
2月前
|
存储 人工智能 大数据
面向 AI 的存储基础设施升级
AI 与大数据融合化是大势所趋,企业可以通过大数据技术收集和存储大量数据,进行一站式计算分析和数据治理,以便安全、精确、高效、智能地应用数据。在这个话题中,我们将会介绍阿里云全栈存储数据基础设施如何支撑 AI 场景的创新与实践,并带来全新一代存储产品的重磅发布,帮助企业高效数字创新。
150 1
|
3月前
|
存储 人工智能 运维
阿里云AI基础设施产品力全球第二
国际研究和咨询公司 Forrester 发布最新全球AI基础设施解决方案研究报告《The Forrester Wave™: AI Infrastructure Solutions, Q1 2024》,阿里云凭借领先的产品性能,获评AI基础设施服务产品力全球第二。
|
2月前
|
人工智能 Kubernetes 云计算
第五届CID大会成功举办,阿里云基础设施加速AI智能产业发展!
2024年10月19日,第五届中国云计算基础架构开发者大会(CID)在北京朗丽兹西山花园酒店成功举办。本次大会汇聚了来自云计算领域的众多精英,不同背景的与会者齐聚一堂,共同探讨云计算技术的最新发展与未来趋势。
|
2月前
|
人工智能 Kubernetes 云计算
第五届CID大会成功举办,阿里云基础设施加速AI智能产业发展!
第五届中国云计算基础架构开发者大会(CID)于2024年10月19日在北京成功举办。大会汇聚了300多位现场参会者和超过3万名在线观众,30余位技术专家进行了精彩分享,涵盖高效部署大模型推理、Knative加速AI应用Serverless化、AMD平台PMU虚拟化技术实践、Kubernetes中全链路GPU高效管理等前沿话题。阿里云的讲师团队通过专业解读,为与会者带来了全新的视野和启发,推动了云计算技术的创新发展。
|
4月前
|
存储 人工智能 弹性计算
AI计算加速渗透、基础设施全面升级…云栖大会重磅发布全览
AI计算加速渗透、基础设施全面升级…云栖大会重磅发布全览
|
4月前
|
存储 人工智能 算法
阿里云AI基础设施升级亮相,模型算力利用率提升超20%
阿里云AI基础设施升级亮相,模型算力利用率提升超20%
276 18
|
5月前
|
人工智能 Java 测试技术
就AI 基础设施的演进与挑战问题之ZooKeeper的稳定性提升配置优化的问题如何解决
就AI 基础设施的演进与挑战问题之ZooKeeper的稳定性提升配置优化的问题如何解决