加速查询MaxCompute再对接Quick BI,选交互式分析就对了!

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
智能商业分析 Quick BI,专业版 50license 1个月
简介: 典型离线大数据场景上,MaxCompute一直占据着不可撼动的地位,但由于其架构原因,当数据量很大时,查询速度较慢,不满足业务场景的ad-hoc查询。目前常用的加速方案是使用其他数据库来将MaxCompute数据加速查询,于是,选择一个怎样的数据库成为业务关注的重点。

导读

典型离线大数据场景上,MaxCompute一直占据着不可撼动的地位,但由于其架构原因,当数据量很大时,查询速度较慢,不满足业务场景的ad-hoc查询。目前常用的加速方案是使用其他数据库来将MaxCompute数据加速查询,于是,选择一个怎样的数据库成为业务关注的重点。
所选择的数据库不仅需要能够快速查询MaxCompute中的数据,满足业务的即席查询需求,也需要有存储、计算能力,面对不同的业务要求,能支持多种查询需求,更重要的是,不能出现数据的冗余存储,操作也要简便,方便运维、开发。同时,业务的完整链路通常是会将处理好的数据对接第三方BI工具,进行可视化分析,这对数据库的兼容能力又进一步提出需求。所以选择什么样的数据库更好呢?交互式分析告诉你答案!

为什么选择交互式分析?

1.从产品定义上来说,交互式分析不能视为数据库,而是一款大数据生态体系下的实时交互产品。
2.从架构上来说,采用存储、计算分离的架构,同时支持简单查询与复杂SQL查询,能实现PB级数据秒级查询响应,每秒亿级记录写入与查询,相比开源系统性能大幅提升。
3.从产品功能上来说:
1)生态兼容:既支持直接、导入查询MaxCompute离线数据,也支持实时数据实时写入实时查询,还能对离线数据和实时数据做联邦查询,完美满足各种业务场景的即席查询。
2)兼容PostgreSQL协议:用标准的SQL语言就能开发,无需额外的学习成本;同时还提供JDBC/ODBC接口,支持对接各种BI工具,无需数据迁移就能实现可视化分析。
3)与DataWorks深度集成:自研的开发平台HoloStudio深度集成在DataWorks上,提供图形化、智能化、一站式的数仓搭建和交互式分析服务工具,简单易用,节约学习成本和时间成本。
综上所诉,加速查询MaxCompute离线数据,使用交互式分析是您的不二选择。

场景演示

下面,小编将会做场景演示,如何使用交互式分析查询MaxCompute数据并最终在Quick BI上可视化分析展现。
开发平台:MaxCompute、交互式分析(都基于DataWorks完成)、Quick BI
场景过程:MaxCompute产生数据源,交互式分析直接、导入查询MaxCompute数据,并对接Quick BI可视化展现。

前提条件

1.开通MaxCompute、交互式分析,并绑定至DataWorks项目空间。
2.开通Quick BI

1.MaxCompute准备数据源

本示例会演示交互式分析直接、导入查询两种场景,所以需要准备2张源表。
在Dataworks中新建2张表,或者直接选取数据地图中的2张表,示例选用数据地图中的两张MaxCompute表。
表1:airline
image.png
表2:bank_data
image.png

2.交互式分析查询MaxCompute数据。

在HoloStudio中查询MaxCompute数据,分为直接查询和导入查询。2者的区别在于:直接查询的数据巨仍然存储在MaxCompute,使用于一次query小于100GB的场景。导入查询的数据最终存储在交互式分析中。

1)对于表1:airline,在HoloStudio中新建外部表直接加速查询,最终数据如下:
image.png
关于直接加速查询MaxCompute表数据可以参见往期:在吗?0代码加速查询MaxCompute

2)对于表2:bank_data导入查询,最终数据如下:
image.png
关于导入查询MaxCmpute表数据,可以参见往期:来了,2行代码秒级查询MaxCompute!


3.Quick BI可视化分析

在交互式分析中对MaxCompute数据加速查询成功后,可以直接对接Quick BI,实现数据的可视化分析。在阿里云官网找到Quick BI并进入Quick BI控制台。并在控制台新增数据源,选用PostgreSQL数据源。
image.png
image.png

配置项 说明
显示名称 自定义
数据库地址 连接的交互式分析数据库公共网络地址
端口 连接的交互式分析数据公共网络端口地址
Schema public(默认)
用户名 当前账号的的Access ID
密码 当前账号的Access Key
vpc数据源 不勾选
SSL 不勾选

1)可视化交互式分析外部表
Quick BI成功连接交互式分析后,不会在数据表列表中显示外部表,若要可视化分析外部表,需要选用即席分析SQL模式。输入查询SQL,并单击执行,得到查询数据后,单击创建数据集。
image.png
在数据集可以看到外部表,可以根据业务需要在右侧选择分析功能。例如仪表盘
image.png
按照查看数据维度来对数据进行展现,并根据个人喜好美化插件,最终展现如下:
image.png

2)可视化分析交互式分析内部表
在Quick BI中,连接成功数据源之后,即可在界面上显示出当前数据源的内部表,需要可视化分析需要单击右侧生成数据集
image.png
生成的数据集如下,对数据集新建仪表盘进行可视化分析。
image.png
最终的简易分析图表如下,可以根据分析维度自行对数据进行拖拽,简单方便。
image.png
以上操作为完整的使用交互式分析加速查询MaxCompute数据 再对接Quick BI可视化分析,无需多次导数据,也无需数据的多次迁移,用一套sql语言,就能实现从数据源-数据处理-数据可视化分析的完整链路。同时在查询性能上,还能实现秒级交互式响应,真正适用与即席查询、olap等场景。还等什么,赶紧用交互式分析吧!
若您在使用交互式分析中有任何疑问,欢迎进钉钉群交流
image.png

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
6天前
|
SQL 缓存 分布式计算
阿里云连续五年入选Gartner®分析和商业智能平台魔力象限,中国唯一
Gartner® 正式发布《分析与商业智能平台魔力象限》报告(Magic Quadrant™ for Analytics and Business Intelligence Platforms),阿里云成为唯一入围该报告的中国厂商,被评为“挑战者”(Challengers)。这也是阿里云连续五年入选该报告。
|
12天前
|
存储 JSON 监控
大数据-167 ELK Elasticsearch 详细介绍 特点 分片 查询
大数据-167 ELK Elasticsearch 详细介绍 特点 分片 查询
28 4
|
2月前
|
关系型数据库 MySQL 分布式数据库
PolarDB 并行查询问题之大数据量的实时分析查询挑战如何解决
PolarDB 并行查询问题之大数据量的实时分析查询挑战如何解决
32 2
|
3月前
|
缓存 DataWorks 数据可视化
DataWorks 数据服务 + BI 可视化分析报表 (搭建战报)
DataWorks 数据服务提供强大的数据 API 能力,并能与多种业界流行的 BI 报表 (DataV、QuickBI、PowerBI和Grafana) 结合,使用 API 数据源的好处是统一数据接口、统一权限管理、统一数据交换以及数据服务提供强大的各式各样的插件能力 (如缓存插件、流量控制插件、日志脱敏插件、断路器插件、IP访问控制插件、三方鉴权插件等),下文介绍各热门 BI 工具接入 DataWorks 数据服务的操作方式。
148 0
DataWorks 数据服务 + BI 可视化分析报表 (搭建战报)
|
3月前
|
SQL 分布式计算 数据处理
MaxCompute操作报错合集之使用Spark查询时函数找不到的原因是什么
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
3月前
|
分布式计算 资源调度 DataWorks
MaxCompute操作报错合集之出现“查询运行日志失败”的报错,一般是什么导致的
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
3月前
|
SQL 分布式计算 DataWorks
MaxCompute操作报错合集之使用sql查询一个表的分区数据时遇到报错,该如何解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
3月前
|
机器学习/深度学习 分布式计算 DataWorks
MaxCompute产品使用合集之使用临时查询创建的表,在表管理和公共表没有找到,是什么原因
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
12天前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
13天前
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
38 3