外部工具连接SaaS模式云数据仓库MaxCompute实战——BI分析工具篇

简介: MaxCompute 是面向分析的企业级 SaaS 模式云数据仓库,以 Serverless 架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,帮助企业和大数据开发者经济并高效的分析处理海量数据。

本文直播作者 木弈 阿里云智能 产品经理


直播视频请点击 直播 观看。


本文将从六个方面讲解。

01 走进 MaxCompute 生态

02 商业智能(BI)分析工具概览

03 开源BI分析工具概览

04 JDBC 简介

05 PyODPS 简介

06 实操展示


下面开始我们第一部分的分享

一、走进 MaxCompute 生态

首先来看下 MaxCompute 产品能支持的外部工具,大概可以分为商业智能、开发管理、传输调度、编程接口。本次分享主要关注商业智能(BI)工具这一板块,可以看到 MaxCompute 官方集成有Tableau、FineReport、FineBI、Quick BI。其中Tableau、FineBI、FineReport是在特定的版本会内置 MaxCompute 驱动,如果需要通过JDBC连接 MaxCompute ,还是需要手动加载 MaxCompute JDBC驱动,Quick BI作为阿里云的产品,是可以通过阿里云账号和AK信息直接连接的,同时在8.6及以上版本的Yonghong Desktop也是可以通过内置驱动连接 MaxCompute。在商业智能部分还有开源BI工具,Superset、Davinci也可以连接 MaxCompute。


在开发管理部分,是我们第二讲要讲的内容,包括DBeaver、DataGrip、SQL Workbench/J。

同时我们的产品还集成了 Kafka和Flink开源引擎。支持的ETL开源工具有Kettle、Airflow、Azkaban,这一部分是在本季直播的第三讲来介绍。支持的编程接口有Python、JDBC、SQLAlchemy。


除了支持的外部工具,MaxCompute 自身也有开放生态,包括内建开源引擎 Spark,迁移工具MMA,开发生态PyODPS、Mars,工具生态Web-Console等。同时 MaxCompute 也与阿里云内部产品共同构建了丰富的解决方案生态和数据应用生态。


image.jpeg


二、商业智能(BI)分析工具概览

商业智能 (BI) 工具支持将计算引擎得到的数据通过仪表板、图表和其他图形输出提供数据可视化,以直观的形式展示给决策者,帮助高管和经理做出更明智的业务决策。


本页所展示的都是经过 MaxCompute 团队成员测试,可以成功连接 MaxCompute 表数据并进行数据可视化的BI工具。 本次重点介绍商业型BI工具,其中Tableau、FineBI、FineReport都是需要通过 MaxCompute JDBC驱动连接 MaxCompute。Quick BI和 Yonghong Desktop 可以通过产品内置驱动连接 MaxCompute。这些BI工具成功连接 MaxCompute 数据源后,可以进行列举数据库、列举表、查看表结构、查询表数据、查询视图等相关操作,打造数据报表。


1B3E5C15-D9B4-43C7-8379-CEA0E2F795EB.png


三、开源BI分析工具概览

MaxCompute 支持的开源BI工具主要是Davinci和Superset,分别是以JDBC和PyODPS做为连接驱动。

1.png

四、JDBC 简介

JDBC

JDBC(Java DataBase Connectivity)是一种用于执行SQL语句的Java API,可以为多种关系数据库提供统一访问,它由一组用Java语言编写的类和接口组成。简单来说就是用Java语言向数据库发送SQL语句来操作数据库。


MaxCompute JDBC 驱动

MaxCompute JDBC 驱动是 MaxCompute 提供的可以访问 MaxCompute 的JDBC接口。您可以通过标准的JDBC 接口基于 MaxCompute 执行海量数据的分布式计算查询。MaxCompute JDBC 驱动还可以用于连接MaxCompute 和支持 JDBC 的工具。


MaxCompute 相关基本参数信息

•URL:jdbc:odps:<MaxCompute_endpoint>?project=<MaxCompute_project_name>

  • :必填。MaxCompute项目所属区域的Endpoint。
  • :必填。待连接的目标MaxCompute项目名称。此处为MaxCompute项目名称,非工作空间名称。

•User:有访问指定项目权限的AccessKey ID。

•Password :AccessKey ID对应的AccessKey Secret。


FD99B6C1-AE33-49B9-987B-5B260E7B3F1F.png

五、PyODPS 简介

PyODPS是MaxCompute的Python SDK,提供DataFrame框架和MaxCompute对象的基本操作方法。您可以通过MaxCompute轻松地分析数据。

PyODPS 支持Python 2.6 以上的 Python 版本,包括Python 3。系统安装了 pip 后,只需运行:

pip install 'git+http://gitlab-ci-token:c60faf31b1f475342c790cca880e06@gitlab-sc.alibaba-inc.com/odps/pyodps.git'

PyODPS 的相关依赖会自动安装。

注意,对于Linux和Mac用户,先安装Cython,再运行安装pyodps命令,能加速Tunnel的上传和下载。

常用参数信息

:MaxCompute项目所属区域的Endpoint。

:待连接的目标MaxCompute项目名称。

User: 有访问指定项目权限的AccessKey ID。

Password :AccessKey ID对应的AccessKey Secret。


六、实操展示

FinBI实操展示

请点击 视频查看实操部分


Superset实操展示

请点击 视频 查看实操部分


其他BI工具接入

工具

版本要求

接入办法

其他资源

  • Tableau:Desktop 2019.4及更高版本
  • MaxCompute:JDBC驱动 3.0.1及以上版本

快速接入Tableau<官方集成>

  • FineBI:v5.1.9及更高版本
  • MaxCompute:JDBC驱动 3.2.8及以上版本

快速接入FineBI<官方集成>

  • FineReport:v10.0及更高版本
  • MaxCompute:JDBC驱动 3.2.8及以上版本

快速接入FineReport<官方集成>

  • Yonghong Desktop:v8.6及更高版本

快速接入永洪BI

  • QuickBI:无特殊要求

快速接入QuickBI

图片 1.png

  • Davinci:无特殊要求

快速接入Davinci

图片 1.png

  • Superset:无特殊要求

快速接入Superset



更多关于大数据计算、云数仓技术交流,欢迎扫码加入 “MaxCompute开发者社区” 钉钉群

晋恒2群.jpg

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
存储 数据采集 大数据
189 0
|
8月前
|
机器学习/深度学习 供应链 算法
仓库一多就乱套?你可能缺的不是人,而是懂大数据的脑子!
仓库一多就乱套?你可能缺的不是人,而是懂大数据的脑子!
171 0
|
10月前
|
SQL 分布式计算 大数据
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
本文深入介绍 Hive 与大数据融合构建强大数据仓库的实战指南。涵盖 Hive 简介、优势、安装配置、数据处理、性能优化及安全管理等内容,并通过互联网广告和物流行业案例分析,展示其实际应用。具有专业性、可操作性和参考价值。
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
|
机器学习/深度学习 消息中间件 搜索推荐
【数据飞轮】驱动业务增长的高效引擎 —从数据仓库到数据中台的技术进化与实战
在数据驱动时代,企业逐渐从数据仓库过渡到数据中台,并进一步发展为数据飞轮。本文详细介绍了这一演进路径,涵盖数据仓库的基础存储与查询、数据中台的集成与实时决策,以及数据飞轮的自动化增长机制。通过代码示例展示如何在实际业务中运用数据技术,实现数据的最大价值,推动业务持续优化与增长。
|
SQL Java 关系型数据库
技术心得记录:开源BI分析工具Metabase配置与完全使用手册
技术心得记录:开源BI分析工具Metabase配置与完全使用手册
2695 0
|
运维 分布式计算 DataWorks
DataWorks产品使用合集之dataworks为子账号创建DataWorks访问密钥的基本步骤如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
268 0
|
DataWorks 安全 数据库
DataWorks产品使用合集之在DataWorks中,使用Power BI Desktop来连接Hologres数据库需要设置白名单如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
607 2
|
分布式计算 大数据 BI
MaxCompute产品使用合集之MaxCompute项目的数据是否可以被接入到阿里云的Quick BI中
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
消息中间件 存储 Kafka
基于云数据库ClickHouse 搭建游戏行业用户行为分析系统实践
游戏行业用户流量的引入及长期留存和活跃是衡量游戏商业转化能力的必要条件和重要衡量指标。新游戏投放市场后通常会持续性进行运营推广和迭代优化,需要完善的运营体系来支撑运营。本文重点阐述如何使用云数据库 ClickHouse 作为核心数仓同步离线和实时数据来构建用户分析系统,以及如何通过用户分析系统来分析用户行为常用场景实践案例,指导游戏行业客户构建和使用行为分析系统,达到提高游戏用户留存率和活跃度的目标。
1552 0
基于云数据库ClickHouse 搭建游戏行业用户行为分析系统实践
|
数据可视化 Linux Apache
CentOS部署Apache Superset大数据可视化BI分析工具并实现无公网IP远程访问
CentOS部署Apache Superset大数据可视化BI分析工具并实现无公网IP远程访问

相关产品

  • 云原生大数据计算服务 MaxCompute