阿里云DTS踩坑经验分享系列｜SLS同步至ClickHouse集群

2024-12-05 226 发布于浙江

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

数据传输服务 DTS，数据迁移 small 3个月

数据传输服务 DTS，数据同步 small 3个月

数据管理 DMS，安全协同 3个实例 3个月

简介： 作为强大的日志服务引擎，SLS 积累了用户海量的数据。为了实现数据的自由流通，DTS 开发了以 SLS 为源的数据同步插件。目前，该插件已经支持将数据从 SLS 同步到 ClickHouse。通过这条高效的同步链路，客户不仅能够利用 SLS 卓越的数据采集和处理能力，还能够充分发挥 ClickHouse 在数据分析和查询性能方面的优势，帮助企业显著提高数据查询速度，同时有效降低存储成本，从而在数据驱动决策和资源优化配置上取得更大成效。

阿里云DTS作为数据世界高速传输通道的建造者，每周为您分享一个避坑技巧，助力数据之旅更加快捷、便利、安全。

作者：柚梧

一、导读

作为强大的日志服务引擎，SLS 积累了用户海量的数据。为了实现数据的自由流通，DTS 开发了以 SLS 为源的数据同步插件。目前，该插件已经支持将数据从 SLS 同步到 ClickHouse。通过这条高效的同步链路，客户不仅能够利用 SLS 卓越的数据采集和处理能力，还能够充分发挥 ClickHouse 在数据分析和查询性能方面的优势，帮助企业显著提高数据查询速度，同时有效降低存储成本，从而在数据驱动决策和资源优化配置上取得更大成效。

二、SLS 链路能力介绍

1. 链路实现介绍

对于源端每一个 shard，我们会为它建立一条独立的数据通道，将指定时间开始的数据拉到 DTS 的 recordStore 里持久化保存。recordStore 中的所有数据会通过矩阵计算后写入到各自对应目标端的表中（注意，shard 不对应表，SLS 的 Topic 才对应目标端的表）。

2. 链路能力界限

类型

说明

源库限制

须确保待同步Logstore的数据保存时间为7天以上。
待同步的Logstore需要关闭自动分裂Shard功能。
DTS实例运行期间，请勿对Shard进行变更操作（如分裂Shard和合并Shard等），否则可能会导致数据丢失。

其他限制

当前仅华北1（青岛）和华北2（北京）地域支持此功能。
不支持DTS Serverless实例。
不支持库表结构同步。
不支持修改同步对象。
不支持同步以__开头并__结尾的索引字段。
若您需要将Logstore中所有Topic的数据同步到ClickHouse集群的同一张表，请在配置同步对象时在表名文本框中填入.*，否则可能会因Topic被过滤而导致相应数据丢失。
重启任务可能会导致少量的数据重复。
实例包含全量同步和增量同步，在任务列表合并显示为增量同步。
待同步数据库的数量符合云数据库ClickHouse的限制，即不超过256个。
若您采用先购买再配置的方式配置实例，在购买实例时需正确选择分布式数据库节点数量。

说明

分布式数据库节点数量必须与待同步数据所属Logstore的Shard数一致。

在全量数据初始化时，DTS将会占用源和目标库一定的读写资源，可能会导致数据库的负载上升。因此建议在执行数据同步前评估源库和目标库的性能，并在业务低峰期执行数据同步（例如源库和目标库的CPU负载在30%以下）。
在DTS同步期间，不允许有除DTS外的数据写入目标库，否则会导致源库与目标库数据不一致。
若实例运行失败，DTS技术支持人员将在8小时内尝试恢复该实例。在恢复失败实例的过程中，可能会对该实例进行重启、调整参数等操作。

说明

在调整参数时，仅会修改实例的参数，不会对数据库中的参数进行修改。可能修改的参数，包括但不限于修改实例参数中的参数。

3. 映射关系

3.1 库表信息映射

SLS 为日志服务，同步到 ClickHouse 这样的数仓，需要有一定的库表映射关系，如下表所示。其中，目标端字段为指定字段，DTS 只会同步指定字段的值，指定字段的数据类型映射参考 2.2 数据类型映射

SLS 基本元素	Clickhouse 映射
地域（Region）	地域（Region）
项目（Project）	实例（Instance）
日志库（Logstore）	数据库（Database）
日志主题（Topic）	表（Table）
日志（Log）	记录（Record）
索引（Index）	字段（Field）

3.2 数据类型映射

日志服务SLS	ClickHouse集群
TEXT	STRING
JSON	STRING
DOUBLE	INT64
LONG	FLOAT64

3.3 数据同步/迁移

在配置任务时，支持选择指定时间开始消费，需确保源端 SLS 在指定时间存有对应数据（如因数据过期被 SLS 清理，则链路配置会失败或从保存最早的数据开始消费）。

SLS 链路只有"增量模块"，可通过控制台查看延迟情况来判断数据消费位置，以此来判断是否消费到最新数据。

三、常见问题解答

为什么需要关闭 Shard 的自动分裂/合并功能？

目前 DTS 侧还不支持 shard 分裂和合并的链路功能，如果不关闭此功能，那么新生产的 shard 将无法被 DTS 消费，导致目标端数据丢失。

配置同步对象时 Topic 和目标端的表应该如何配置。

SLS 中每一个 Logstore 的 Topic 对应目标端中的每一个表。如果需要同步指定 Topic，需要在配置界面中新增表，表名为需要同步的 Topic，目标端表名为该 Topic 同步到目标端对应的表。如果不需要指定 Topic，则将表名写为 .*（正则表达式），DTS 会同步所有 Topic 到目标端的指定表（这种情况下不允许再新增表，否则可能会导致数据丢失）。

SLS 是日志服务，如何在数据上和 ClickHouse 对应。

DTS 支持将 SLS 中的索引同步到 Clickhouse 的字段，您需要在源端正确地建立索引，同时注意数据类型，确保该索引对应的数据类型能够全部正确地对应到 Clickhouse 中字段的类型，否则会导致数据转换失败，任务中断。

链路失败、暂停后重启会有数据丢失和数据重复吗？

该链路目前能做到 Exactly Once，重启后会自动过滤掉已经同步的数据；同时，只要源端的数据还在生命周期内，就不会丢失数据。

四、快来关注

数据传输服务（Data Transmission Service，简称DTS）支持关系型数据库、NoSQL、大数据（OLAP）等数据源，集数据迁移、订阅、实时同步、校验功能于一体，能够解决公共云、混合云场景下，远距离、秒级异步数据传输难题。其底层基础设施采用阿里双11异地多活架构，为数千下游应用提供实时数据流，已在线上稳定运行7年之久，是一款沉淀了丰富实践经验的可靠产品。点击了解更多DTS相关信息
详细操作步骤可参考：如何将数据从SLS同步至ClickHouse集群
欢迎加入钉群讨论交流：

阿里云DTS踩坑经验分享系列｜SLS同步至ClickHouse集群

一、导读

二、SLS 链路能力介绍

1. 链路实现介绍

2. 链路能力界限

3. 映射关系

3.1 库表信息映射

3.2 数据类型映射

3.3 数据同步/迁移

三、常见问题解答

四、快来关注

数据库管理工具

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

阿里云DTS踩坑经验分享系列｜SLS同步至ClickHouse集群

一、导读

二、SLS 链路能力介绍

1. 链路实现介绍

2. 链路能力界限

3. 映射关系

3.1 库表信息映射

3.2 数据类型映射

3.3 数据同步/迁移

三、常见问题解答

四、快来关注

数据库管理工具

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像