Quick BI 支持多种数据源进行多维分析

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
简介: 随着互联网的高速发展,数据量爆发式增长的同时,数据的存储形式也开始呈现出多样性,有结构化存储,如 Mysql, Oracle, SQLServer 等,半结构化甚至非结构化存储,如HBase,OSS 等。

Quick BI 支持多种数据源进行多维分析


一、摘要

随着互联网的高速发展,数据量爆发式增长的同时,数据的存储形式也开始呈现出多样性,有结构化存储,如 Mysql, Oracle, SQLServer 等,半结构化甚至非结构化存储,如HBaseOSS 等。那么从事数据分析的人员就面临着从多种多样的数据存储形式中提取数据而后进行多维分析,这将是一件非常具有挑战的事情。而Quick BI 作为新一代智能BI服务平台,恰好解决了这一难题,不仅支持多种结构化数据源的多维分析,也支持本地文件上传后的查询分析,同时还支持部分非结构化数据源的OLAP分析,甚至支持混合异构数据源的关联分析。

Quick BI 目前支持的数据源既可以来自阿里云数据库,也可以来自自建数据库,如下所示:


 1342c28d26dfd2142a76ebae62e04f6ad07c6df0


1b0a35fc2e8f83a73c16d5a27e7bc4151e29caf1


eda2b184b065793b2e3a455dba78ebed900968df


二、  结构化数据源多维分析

对于一般的数据源,用户在做多维分析之前需要先在Quick BI 数据源界面添加自己的数据源,比如MySQL数据源,如下:

 e9c45dfddfd55623ecd15b0b36a44f7fa1ed704f

数据源添加完成后,可以选择一张或多张要进行分析的数据表创建一个数据集,如下:

869419f35f68d8aa68a7fabb7a4254adfa009ca5

数据集创建完成后用户就可以在仪表板里拖拽维度和度量进行多维分析了,比如:

293d67e026541445b7d407a2d114e37fef99a65f

结构化数据源的多维分析相对比较简单,大致过程就是针对每次多维分析查询,根据用户选择的维度,度量及过滤条件等查询因子,生成相应结构化数据源的方言SQL,然后通过执行机下发到用户自己的数据库去执行该SQL,最后Quick BI接收返回的查询结果进行可视化展现。下图展示了多维分析的流程图:

6d0d0a596022375c795cfdd1b9decd48d16f08c4

顺便介绍一下,本地文件上传支持csv 和Excel 两种文件类型。上传后的文件会落地到Quick BI提供的一种官方数据源:探索空间。探索空间底层依赖了一种阿里云自研的MPP SQL引擎,提供存储+计算服务。

接下来的篇幅将着重介绍非结构化查询分析及混合异构数据源关联分析的原理。

 

三、 非结构化数据源查询分析

3.1 背景

近年来部分大型企业更倾向于采用诸如半结构化存储(HBase),对象存储(OSS)等能容纳较大数据规模的数据库。如何有效地帮助企业对此类数据源进行多维数据分析是目前业界BI产品的一项挑战。

在开源的数据库产品当中,存在着一些潜在的解决方案。例如,针对HDFS数据的查询,Hive设计了metastore组件,专门用于存储元数据,解决了从结构化查询到非结构化数据之间的映射关系,用户通过使用创建外部表SQL的语法,可以更灵活地自定义映射的方式。另外,Apache Phoenix也采取了类似的方式让用户能够使用SQL语句对HBase中的数据进行查询。经过充分调研后,针对Quick BI产品自身的业务场景,结合开源计算引擎二次开发了一套用于非结构化查询的分析引擎。

 

3.2 技术原理

对非结构化数据源进行OLAP查询,其关键在于支持SQL语法形式的数据查询。Quick BIOLAP引擎内部采用创建外部表的SQL语法,给用户提供了一种自定义的,从非结构化数据到结构化存储的映射方式。对于诸如MySQLOracle等结构化的数据源而言无须额外的元数据信息对于非结构化的数据源需要提供额外的元数据信息Metastore维护了所有非结构化数据源的元数据信息元数据信息中反映了非结构化数据到结构化之间的映射方式Metadb中包含了3张表用于定义可以被SQL查询所需要的元数据信息如下图所示

998912c63f52c94928d00846c891dc83cc1d9a99

Schems、Tables和Columns分别定义了外部表的结构,通过SQL创建外部表时,在其中加入相应的记录。查询非结构化数据源时,再读取相应的记录,对数据进行解析。

下面以一个场景作为例子,进一步地说明非结构化查询的过程,假设用户以CSV文件的形式将业务数据存储在OSS上,文件的名称为iris.csv,其内容如下所示:  

9405853aeccdb7ee39de17aacfb4a7740d3342e1

针对这个文件,用户期望利用Quick BI对其进行OLAP查询,根据用户在Quick BI数据源页面中的配置,OLAP内部生成一条创建外部表的SQL语句:

80dfce6083b7278dcb1e60fbcbd61ca376054fef

SQL Parser对SQL进行解析,AST Builder生成对应的AST,如下图所示:

116a4ae4a0780ab783ca02ffd5b0eea6f080d9b8

注意到该AST包含了外部表所需的全部信息,包括如何解析csv文件并映射成结构化的数据,使得数据能够与SQL中的schema、column和table对应。Query Execution调用Metastore将信息存储至Meatadb。此时,存储再OSS上的CSV文件在逻辑上已经映射成了一张表,如下图所示:

37e9e340b99477092fa1f65bd8282f1bd05e7c99

下一步便可以直接使用SQL对其进行查询,例如,使用下面的SQL筛选出种类(species)为setosa的数据记录;

c393a9ce4ccca4f1222743323b6a4e41eed192c3

同理,对于HBase数据源,同样采用外部表的方式定义映射规则:

06b699fefb41af029d89c150b962441d8a75cea5

 

3.3 小结

Quick BI 目前支持对OSS上的csv 文件进行查询分析,后续会增加支持OSS上更多文件类型的查询分析,及对HBase的多维分析。

 

四、混合异构数据源关联分析

4.1  背景

Quick BI用户对异构数据源的分析需求,如:维表在MySQL,事实表在MaxCompute时,需要进行不同类型数据源间或相同类型数据源不同库间表的关联分析。

 

4.2 技术原理

要能够支持异构数据源间的跨源关联分析,首先需要有一款具备数据源Connector 插件机制的计算引擎,这样就能够方便扩展支持多种数据源类型查询。我们从业界开源计算引擎中选择了一款具备这样特性的MPP内存计算引擎,经过二次开发,形成了一套适合Quick BI业务场景的跨源查询引擎。

跨源查询引擎在支持异构数据源查询时,只需在查询SQL中使用完整的catalogName.dbName.tableName表名(如:odps.quickbi_test.company_sales_record),

Quick BI业务中用户自己配置的每个数据源在后台都会配一个唯一标识dsId, 所以刚好可以用来作为catalogName, 且涉及到的Catalog在跨源查询引擎中已经被加载即可。之后在查询时,跨源查询引擎会解析SQL,生成逻辑计划、物理计划,再通过Catalog的配置到指定数据源加载数据,在内存中进行计算并返回最终结果。

大部分多维分析都是单源查询,那么在什么情况下才会启用跨源查询引擎呢,这就需要实现异构数据源查询的智能路由,智能路由主要是根据查询模型中涵盖的数据源信息来判断是单源查询还是多源查询来决定路由到单源查询引擎还是跨源查询引擎。跨源查询流程如下图所示:

23ffc9fda945478bcbfed758cab3c9f1251074f7

注意要确保本次查询所涉及到的catalogs 向跨源查询引擎的CatalogServer 动态注册成功后,才能下发本次查询的SQLText到跨源查询引擎。

示例:MaxCompute, MySQL 间的异构查询SQL:

cdabafbe4196bd13e7483c8cb08863340fd823e9

查询结果:

b03f0fe0f646160499887c42ba0f6938b38f1fb4

4.3 小结

异构数据源分析功能对用户是透明无感知的,欢迎前往Quick BI体验。用户只需在数据集关联时选用来源于不同库的数据表,就可轻松体验异构数据源分析功能,目前支持MaxComputeMySQLOracle间的异构数据源查询或同构数据源跨库查询。后续会支持更多类型数据源异构查询,如 Hive, SQLServer, PostgresSql 等。

 

五、未完待续

Quick BI 后续将会迭代更新逐步支持更多类型数据源的多维分析,如API类数据源等,敬请期待


作者:萨若 衣候

相关实践学习
阿里云实时数仓实战 - 用户行为数仓搭建
课程简介 1)学习搭建一个数据仓库的过程,理解数据在整个数仓架构的从采集、存储、计算、输出、展示的整个业务流程。 2)整个数仓体系完全搭建在阿里云架构上,理解并学会运用各个服务组件,了解各个组件之间如何配合联动。 3 )前置知识要求:熟练掌握 SQL 语法熟悉 Linux 命令,对 Hadoop 大数据体系有一定的了解   课程大纲 第一章 了解数据仓库概念 初步了解数据仓库是干什么的 第二章 按照企业开发的标准去搭建一个数据仓库 数据仓库的需求是什么 架构 怎么选型怎么购买服务器 第三章 数据生成模块 用户形成数据的一个准备 按照企业的标准,准备了十一张用户行为表 方便使用 第四章 采集模块的搭建 购买阿里云服务器 安装 JDK 安装 Flume 第五章 用户行为数据仓库 严格按照企业的标准开发 第六章 搭建业务数仓理论基础和对表的分类同步 第七章 业务数仓的搭建  业务行为数仓效果图  
相关文章
|
传感器 数据可视化 搜索推荐
瓴羊Quick BI助力深圳光明环境水务公司举办水务数据应用大会暨第二届“光环杯”BI应用大赛
瓴羊Quick BI助力深圳光明环境水务公司举办水务数据应用大会暨第二届“光环杯”BI应用大赛
319 0
Quick BI V5.0发布:一键解锁智能小Q等全新智能商业分析能力
Quick BI V5.0发布:一键解锁智能小Q等全新智能商业分析能力
521 0
|
数据可视化 安全 搜索推荐
干货|FESCO Adecco外企德科:Quick BI打造战略管理“观数台”(2)
干货|FESCO Adecco外企德科:Quick BI打造战略管理“观数台”
374 4
|
监控 数据可视化 数据挖掘
干货|FESCO Adecco外企德科:Quick BI打造战略管理“观数台”(1)
干货|FESCO Adecco外企德科:Quick BI打造战略管理“观数台”
373 4
|
分布式计算 大数据 BI
MaxCompute产品使用合集之MaxCompute项目的数据是否可以被接入到阿里云的Quick BI中
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
BI
专业认证!阿里云Quick BI入选Gartner®魔力象限
专业认证!阿里云Quick BI入选Gartner®魔力象限
386 1
|
自然语言处理 数据可视化 数据挖掘
首批!瓴羊Quick BI完成中国信通院大模型驱动的智能数据分析工具专项测试
首批!瓴羊Quick BI完成中国信通院大模型驱动的智能数据分析工具专项测试
475 1
|
存储 BI 数据库
数据洞见未来——瓴羊Quick BI荣获邀请,将亮相OceanBase开发者大会
数据洞见未来——瓴羊Quick BI荣获邀请,将亮相OceanBase开发者大会
195 0
|
消息中间件 BI Serverless
消息队列推出serverless版、Quick BI升级至5.0……阿里云近期产品动态汇总
消息队列推出serverless版、Quick BI升级至5.0……阿里云近期产品动态汇总
601 1
|
SQL 机器学习/深度学习 数据可视化
产品至简,大道行宽——Quick BI接入通义千问大模型,引领数据消费新范式
产品至简,大道行宽——Quick BI接入通义千问大模型,引领数据消费新范式
1250 0

热门文章

最新文章