《阿里云产品四月刊》—得物 ZooKeeper SLA 也可以 99.99%丨最佳实践(4)https://developer.aliyun.com/article/1554137
意外发现
通过上面的分析可以得知,需要避免客户端出现对所有 ZNode 进行全面订阅的情况。然而,实际情况是,许多业务代码确实存在这样的逻辑,从 ZTree 的根节点开始遍历所有 ZNode,并对它们进行全面订阅。
或许能够说服一部分业务方进行改进,但无法强制约束所有业务方的使用方式。因此, 解决这个问题的思路在于监控和预防。然而,遗憾的是,ZK 本身并不支持这样的功能, 这就需要对 ZK 源码进行修改。
通过对源码的跟踪和分析,发现问题的根源又指向了 WatchManager,并且仔细研究了这个类的逻辑细节。经过深入理解后,发现这段代码的质量似乎像是由应届毕业生编 写的,存在大量线程和锁的不恰当使用问题。通过查看 Git 记录,发现这个问题可以追溯 到 2007 年 。
然而,令人振奋的是,在这一段时间内,出现了 WatchManagerOptimized(2018), 通过搜索 ZK 社区的资料,发现了 [ZOOKEEPER-1177],即在 2011 年,ZK 社区就已经意识到了大量 Watch 导致的内存占用问题,并最终在 2018 年提供了解决方案。正是这个 WatchManagerOptimized 的功劳,看来 ZK 社区早就进行了优化。
有趣的是,ZK 默认情况下并未启用这个类,即使在最新的 3.9.X 版本中,默认仍然使用 WatchManager。也许是因为 ZK 年代久远,渐渐地人们对其关注度降低了。通过询问阿里的同事,确认了 MSE-ZK 也启用了 WatchManagerOptimized,这进一步证实了得物技术团队关注的方向是正确的。
《阿里云产品四月刊》—得物 ZooKeeper SLA 也可以 99.99%丨最佳实践(6)https://developer.aliyun.com/article/1554135