Quick 引擎-抽取性能提升

本文涉及的产品
智能商业分析 Quick BI,专业版 50license 1个月
简介: 本文介绍了一种通过并发抽取方案提升 Quick BI 数据抽取性能的方法,利用 DataX 进行二次开发,实现数据同步至高性能 OLAP 引擎。通过指定分区键或配置多条 SQL 实现任务拆分,显著减少了数据抽取时间,优化效果得到客户认可。

(一)前言

本文旨在描述如何通过并发抽取的方案提升引擎的数据抽取性能,从而减少任务耗时。


(二)方案

原理

Quick BI 抽取加速,基于开源 DataX 做二次开发,将客户数据源中的数据源同步产品内置高性能 OLAP 引擎中。

配置 DataX 任务时,支持以下两种方案,对数据同步任务进行拆分:


  • 对于单表数据同步,指定分区键(splitPk,  一般是作为主键或索引的整形字段),会根据 splitPk 的值进行任务拆分
  • 对于 SQL 数据同步,允许在同步配置中配置多条 SQL, 达到任务拆分的目的


改造

1.Quick BI 提前探测数据集,提供可以作为 splitPk 的数据集字段供用户选择;

2.根据数据集是否单表,决定任务拆分方式。单表直接在 DataX 同步模板配置 splitPk, 其他模型都由 Quick BI 自动生成多条 SQL。






产品透出






(三)效果

深圳某客户,Presto数据源中有近2000W万行数据,对比支持多线程抽取前后,抽取耗时从 3300秒缩减到1900秒,抹平了和竞品的差距。优化结果获得了客户和前线认可。








相关文章
|
缓存 分布式计算 数据可视化
Quick BI产品核心功能大图(四)Quick引擎加速:十亿数据亚秒级分析
随着数字化进程的深入,数据应用的价值被越来越多的企业所重视。基于数据进行决策分析是应用价值体现的重要场景,不同行业和体量的公司广泛依赖BI产品制作报表、仪表板和数据门户,以此进行决策分析。
894 0
|
存储 SQL 负载均衡
列式存储引擎分析比对
列式存储具有高压缩率、利于列裁剪、以及高CPU计算效率(Cache Friendly)等特点,是分析型业务场景所选择的主流数据存储方案。 本文介绍了工业界一些常见的面向OLAP或HTAP场景数据库的列存存储引擎设计思路,并进行了总结和对比。
3514 3
|
存储 SQL 分布式计算
SparkES 多维分析引擎设计
在构建即席多维查询系统时,Spark 可以和ES取得良好的互补效果。通过ES的列式存储特性,我们可以非常快的过滤出数据,并且支持全文检索,之后这些过滤后的数据从各个Shard 进入Spark,Spark分布式的进行Reduce/Merge操作,并且做一些更高层的工作,最后输出给用户。
2199 0
|
存储 SQL 缓存
Hologres揭秘:深度解析高效率分布式查询引擎
从阿里集团诞生到云上商业化,随着业务的发展和技术的演进,Hologres也在持续不断优化核心技术竞争力,为了让大家更加了解Hologres,我们计划持续推出Hologers底层技术原理揭秘系列,从高性能存储引擎到高效率查询引擎,高吞吐写入到高QPS查询等,全方位解读Hologers,请大家持续关注!
11312 4
Hologres揭秘:深度解析高效率分布式查询引擎
|
数据挖掘 数据管理 测试技术
火山引擎:ClickHouse增强计划之“Upsert”
火山引擎:ClickHouse增强计划之“Upsert”
火山引擎:ClickHouse增强计划之“Upsert”
|
存储 运维 druid
阿里云PB级实时数仓AnalyticDB通用解决方案解析
大数据上云特惠活动系列直播,阿里巴巴技术部悦畅对PB级实时数仓AnalyticDB通用解决方案进行解析。分析型数据库(AnalyticDB)是由阿里巴巴自主研发的海量数据实时高并发在线分析(Realtime OLAP)云计算服务,可以在毫秒级针对千亿级数据进行及时的多维分析透视和业务探索。
4665 0
阿里云PB级实时数仓AnalyticDB通用解决方案解析
|
存储 关系型数据库 定位技术
阿里云数据库时空引擎Ganos上线,为位置智能提供核心引擎
2018年12月10日,阿里云PostgreSQL数据库时空引擎Ganos正式上线,将为各类GIS地理空间数据以及时空型数据提供云上的高效存储、查询和分析计算服务。Ganos将数据库、GIS引擎和新型时空计算整合,利用云上GPU加速、OSS大规模存储能力,为更广泛领域建立基于位置智能提供基础核心能力。
5812 0
|
存储 人工智能 算法
结合 AnalyticDB 特性实现结构化和非结构化数据的联合分析赛题分析 | 学习笔记
快速学习结合 AnalyticDB 特性实现结构化和非结构化数据的联合分析赛题分析
结合 AnalyticDB 特性实现结构化和非结构化数据的联合分析赛题分析 | 学习笔记
|
存储 Prometheus 运维
阿里云ES全观测引擎TimeStream时序增强功能重磅发布,助力时序场景实现最佳实践
阿里云ES全观测引擎TimeStream时序增强功能最新发布,在云原生ELK全托管基础上,通过TimeStream时序增强功能插件,可实现高性能、低成本时序数据存储和查询分析。本文介绍TimeStream适用场景、功能优势、性能测试结果和实践案例
2246 0
|
7月前
|
DataWorks 调度 数据库
实时数仓 Hologres产品使用合集之通用和计算组型有什么区别
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。