Quick 引擎-抽取性能提升

本文涉及的产品
智能商业分析 Quick BI,专业版 50license 1个月
简介: 本文介绍了一种通过并发抽取方案提升 Quick BI 数据抽取性能的方法,利用 DataX 进行二次开发,实现数据同步至高性能 OLAP 引擎。通过指定分区键或配置多条 SQL 实现任务拆分,显著减少了数据抽取时间,优化效果得到客户认可。

(一)前言

本文旨在描述如何通过并发抽取的方案提升引擎的数据抽取性能,从而减少任务耗时。


(二)方案

原理

Quick BI 抽取加速,基于开源 DataX 做二次开发,将客户数据源中的数据源同步产品内置高性能 OLAP 引擎中。

配置 DataX 任务时,支持以下两种方案,对数据同步任务进行拆分:


  • 对于单表数据同步,指定分区键(splitPk,  一般是作为主键或索引的整形字段),会根据 splitPk 的值进行任务拆分
  • 对于 SQL 数据同步,允许在同步配置中配置多条 SQL, 达到任务拆分的目的


改造

1.Quick BI 提前探测数据集,提供可以作为 splitPk 的数据集字段供用户选择;

2.根据数据集是否单表,决定任务拆分方式。单表直接在 DataX 同步模板配置 splitPk, 其他模型都由 Quick BI 自动生成多条 SQL。






产品透出






(三)效果

深圳某客户,Presto数据源中有近2000W万行数据,对比支持多线程抽取前后,抽取耗时从 3300秒缩减到1900秒,抹平了和竞品的差距。优化结果获得了客户和前线认可。








相关文章
|
安全
统一召回引擎
统一召回引擎
74 0
|
搜索推荐
统一召回引擎的优势
统一召回引擎的优势
113 0
|
运维 大数据 网络安全
大厂案例 - 实时分析引擎
大厂案例 - 实时分析引擎
73 0
|
SQL 存储 数据挖掘
Quick BI 的模型设计与生成SQL原理剖析
本文介绍Quick BI如何进行维度建模,基于维度模型如何来自动化的生成分析查询的SQL语句,从而使数据分析变得更容易。
3033 0
|
SQL 存储 Java
应用成本低出 N 倍的数据分析引擎 esProc SPL
我们介绍的 esProc SPL 是一个数据分析引擎,具备 4 个主要特点:低代码、高性能、轻量级、全功能。SPL 不仅写得简单,跑得也更快,既可以独立使用还能与应用集成嵌入,同时适用于多种应用场景。使用 esProc SPL 实现数据分析业务,整体应用成本将比以 SQL 为代表的传统技术低出几倍。
|
数据挖掘 数据管理 测试技术
火山引擎:ClickHouse增强计划之“Upsert”
火山引擎:ClickHouse增强计划之“Upsert”
火山引擎:ClickHouse增强计划之“Upsert”
|
存储 算法 数据挖掘
火山引擎:ClickHouse增强计划之“多表关联查询”
火山引擎:ClickHouse增强计划之“多表关联查询”
|
8月前
|
搜索推荐 关系型数据库 分布式数据库
PolarDB 开源版通过roaringbitmap支持高效用户画像等标签操作
背景PolarDB 的云原生存算分离架构, 具备低廉的数据存储、高效扩展弹性、高速多机并行计算能力、高速数据搜索和处理; PolarDB与计算算法结合, 将实现双剑合璧, 推动业务数据的价值产出, 将数据变成生产力.本文将介绍PolarDB开源版通过roaringbitmap支持用户画像等标签操作场...
134 0
|
存储 并行计算 搜索推荐
PolarDB 开源版通过roaringbitmap支持高效用户画像等标签操作
PolarDB 的云原生存算分离架构, 具备低廉的数据存储、高效扩展弹性、高速多机并行计算能力、高速数据搜索和处理; PolarDB与计算算法结合, 将实现双剑合璧, 推动业务数据的价值产出, 将数据变成生产力. 本文将介绍PolarDB开源版通过roaringbitmap支持用户画像等标签操作场景。
347 0
|
存储 SQL 缓存
Hologres揭秘:深度解析高效率分布式查询引擎
从阿里集团诞生到云上商业化,随着业务的发展和技术的演进,Hologres也在持续不断优化核心技术竞争力,为了让大家更加了解Hologres,我们计划持续推出Hologers底层技术原理揭秘系列,从高性能存储引擎到高效率查询引擎,高吞吐写入到高QPS查询等,全方位解读Hologers,请大家持续关注!
11030 3
Hologres揭秘:深度解析高效率分布式查询引擎