详解 Apache SkyWalking OAP 的分布式计算-阿里云开发者社区

详解 Apache SkyWalking OAP 的分布式计算

2022-04-03 500

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： SkyWalking的OAP（Observability Analysis Platform，观测分析平台）是一个用于链路数据的分布式计算系统。因为它巧妙的设计，使得在链路数据计算和聚合过程中，不需要考虑数据的一致性，也没有事务、分布式锁等概念。在极端情况下，可能出现链路数据的丢失,但会最大限度保障OAP集群的可用性。咱们来看一下，它是如何设计的，为以后的系统设计和架构提供一些思路。

SkyWalking的OAP（Observability Analysis Platform，观测分析平台）是一个用于链路数据的分布式计算系统。

因为它巧妙的设计，使得在链路数据计算和聚合过程中，不需要考虑数据的一致性，也没有事务、分布式锁等概念。

在极端情况下，可能出现链路数据的丢失,但会最大限度保障OAP集群的可用性。咱们来看一下，它是如何设计的，为以后的系统设计和架构提供一些思路。

数据类型

在介绍分布式计算之前，咱们先了解一下需要计算的数据都有哪些类型：

Record数据，即明细数据，如Trace、访问日志等数据，由RecordStreamProcessor进行处理。
Metrisc数据，即指标数据，绝大部分的OAL指标都会生成这种数据，由MetricsStreamProcessor进行处理。
TopN数据，即周期性采样数据，如慢SQL的周期性采集，由TopNStreamProcessor进行处理。

分布式计算

像Trace、访问日志等这样的明细数据，数据量比较大，但是不需要归并处理，所以在OAP节点内部处理即可完成。明细数据采用缓存、异步批量处理和流式写入的方式写入到存储中。

绝大部分由OAL（Observability Analysis Language，观测分析语言）定义的指标数据是需要分布式聚合计算的，所以在OAP集群计算流中分成了两种步骤。

步骤一：接收和解析探针发送的数据，并进行当前OAP节点内的数据聚合，使用OAL或者其他聚合模式。如果是不需要分布式聚合的数据，直接写入到存储中；如果是需要分布式聚合的数据，根据一定的路由规则发送给指定的OAP节点。

步骤二：接收和解析经步骤一处理过的数据，然后进行二次聚合计算，并写入到存储中。

因为上面两个步骤极有可能不在同一个OAP节点上，所以OAP节点被分为Receiver（步骤一）和Aggregator（步骤二）两种角色。

为了减少部署难度，所有OAP节点在默认情况下都会使用Mixed角色（既可以进行步骤一的操作，也可以进行步骤二的操作）。在大规模部署的时候，可以根据网络流量进行角色分离的两级部署。

指标数据是计算资源消耗最大的分布式计算，也是整套分布式计算要支持的核心计算类型。在此计算过程中，使用哈希路由策略，根据计算的实体，如服务ID、端点ID等的哈希值来选择对应的OAP节点。

OAP节点之间的通信采用的是 gRPC stream 模式，传输过程中不包含业务字段名称，按照数据类型和字段定义顺序进行序列化，减少非数据字段的传输。

注：本文以SkyWalking的8.2.0版本为例进行介绍，如果版本不同会略有差异。

详解 Apache SkyWalking OAP 的分布式计算

数据类型

分布式计算

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

详解 Apache SkyWalking OAP 的分布式计算

数据类型

分布式计算

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像