(一)前言
本文旨在描述如何通过并发抽取的方案提升引擎的数据抽取性能,从而减少任务耗时。
(二)方案
原理
Quick BI 抽取加速,基于开源 DataX 做二次开发,将客户数据源中的数据源同步产品内置高性能 OLAP 引擎中。
配置 DataX 任务时,支持以下两种方案,对数据同步任务进行拆分:
- 对于单表数据同步,指定分区键(splitPk, 一般是作为主键或索引的整形字段),会根据 splitPk 的值进行任务拆分
- 对于 SQL 数据同步,允许在同步配置中配置多条 SQL, 达到任务拆分的目的
改造
1.Quick BI 提前探测数据集,提供可以作为 splitPk 的数据集字段供用户选择;
2.根据数据集是否单表,决定任务拆分方式。单表直接在 DataX 同步模板配置 splitPk, 其他模型都由 Quick BI 自动生成多条 SQL。
产品透出
(三)效果
深圳某客户,Presto数据源中有近2000W万行数据,对比支持多线程抽取前后,抽取耗时从 3300秒缩减到1900秒,抹平了和竞品的差距。优化结果获得了客户和前线认可。