本文聚焦 LoongSuite 生态核心组件 LoongCollector,深度解析 LoongCollector 在智算服务中的技术突破,涵盖多租户观测隔离、GPU 集群性能追踪及事件驱动型数据管道设计,通过零侵入采集、智能预处理与自适应扩缩容机制,构建面向云原生 AI 场景的全栈可观测性基础设施,重新定义高并发、强异构环境下的可观测性能力边界。
目标读者数字化系统开发运维(DevOps)工程师、稳定性工程师(SRE)、可观测平台运维人员等。使用场景客户的某些场景下,业务拆分的比较细,每个业务会定时输出一个日志文件(比如每小时输出一个文件),那么在一台机器上,可能会产生大量的日志文件。由于某些原因,用户不想在业务服务器上安装采集端,因此采用比...
块存储的监控与运维是非常重要的,EBS Lens针对块存储提供数据分析、资源监控的功能,可以帮助用户获取云上块存储资源信息与性能监控数据、提升云上块存储资源的管理效率、高效分析业务波动与资源性能消耗情况。
Paxos 作为一个经典的分布式一致性算法(Consensus Algorithm),在各种教材中也被当做范例来讲解。但由于其抽象性,很少有人基于朴素 Paxos 开发一致性库,本文介绍的实现代码参考了 RAFT 中的概念以及 phxpaxos 的实现和架构设计,实现 multi-paxos 算法,主要针对线程安全和模块抽象进行强化,网络、成员管理、日志、快照、存储以接口形式接入,算法设计为事件驱动,仅包含头文件,便于移植和扩展。
在Kubernetes 日志查询分析实践中,我们介绍了如何通过 DaemonSet 方式部署 logtail 并采集标准输出/文件两种形式的数据。DaemonSet 部署的优势在于其能够尽可能地减少采集 agent 所占用的资源且支持标准输出采集,但因为每个 DaemonSet pod 需要负责 n...
漏斗分析当下已被广泛应用于产品运营分析过程中,成为用户增长、客户流失、留存转化等的重要分析方法。 常见的漏斗分析过程如下图所示,当产品或者运营活动发布后, 通过收集运营数据、并建立漏斗模型,然后根据漏斗模型进行统计和分析,定位问题,从而进行对应的优化迭代,并持续跟踪,最终实现用户增长、产品优化等目标...
本文就通过一个客户的实际案例开介绍如何使用在无法直接开启CEN flowlog的情况下,使用SLS的数据加工能力,从VPC flowlog的数据中过滤出客户需要的流量日志出来。