外部工具连接SaaS模式云数仓MaxCompute—ETL工具篇

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本文主要讲解开源ETL工具如何连接MaxCompute

直播视频请点击 直播 观看。

本次分享将从五个方面讲解。

01 走进MaxCompute生态

02 开源ETL工具

03 客户端简介

04 PyODPS简介

05 实操展示

一、走进MaxCompute生态

首先来看下 MaxCompute 产品能支持的外部工具,大概可以分为商业智能、开发管理、传输调度、编程接口。本次分享主要关注商业智能(BI)工具这一板块,可以看到 MaxCompute 官方集成有Tableau、FineReport、FineBI、Quick BI。其中Tableau、FineBI、FineReport是在特定的版本会内置 MaxCompute 驱动,如果需要通过JDBC连接 MaxCompute ,还是需要手动加载 MaxCompute JDBC驱动,Quick BI作为阿里云的产品,是可以通过阿里云账号和AK信息直接连接的,同时在8.6及以上版本的Yonghong Desktop也是可以通过内置驱动连接 MaxCompute。在商业智能部分还有开源BI工具,Superset、Davinci也可以连接 MaxCompute。


在开发管理部分,是我们第二讲的内容,包括DBeaver、DataGrip、SQL Workbench/J。

同时我们的产品还集成了 Kafka和Flink开源引擎。支持的ETL开源工具有Kettle、Airflow、Azkaban,这一部分是本次分享来介绍。支持的编程接口有Python、JDBC、SQLAlchemy。


除了支持的外部工具,MaxCompute 自身也有开放生态,包括内建开源引擎 Spark,迁移工具MMA,开发生态PyODPS、Mars,工具生态Web-Console等。同时 MaxCompute 也与阿里云内部产品共同构建了丰富的解决方案生态和数据应用生态。


二、开源ETL工具

主要介绍一下开源ETL工具通过哪些方式连接 MaxCompute 。开源ETL工具包含,Airflow、Azkaban、Kettle。

首先看下Airflow,Airflow是python编写的一款调度工具,内部有Python OperatorBash Operator , 等各种Operator。也支持自定义插件的开发,Airflow是通过command Operator控制MaxCompute客户端通过命令行的方式,提交SQL任务,对于Python SDK可以通过Python py文件这种方式提交,Java sdk可以通过java -jar方式提交。因为Airflow支持Python Operator,所以可以直接集成PyODPS,可以直接写Python代码。第二部分是Azkaban,Azkaban主要是通过command提交我们的任务,可以通过MaxCompute提供的编程接口提交SQL任务。Kettle可以通过JDBC直接连接MaxCompute。

02.jpg


三、MaxCompute CLI客户端简介

MaxCompute客户端支持运行在Linux/Mac/Window三个系统上。

安装

•JDK 1.8以上。

•已经创建MaxCompute项目,拥有该项目权限的账号

配置

•修改conf文件夹下的odps_config.ini文件

•填写ak、项目名、endpoint

使用

•Linux/Mac上执行bin目录下的odpscmd,windows执行bin目录下的odpscmd.bat

•支持执行单个sql语句,执行sql文件,上传资源,上传下载数据(Tunnel)、授权等操作

四、MaxCompute Python SDK(PyODPS)简介

安装

•PC客户端安装依赖于python环境,执行 pip install pyodps

•DataWorks内建PyODPS支持,通过新建PyOdps节点提交Python任务

PyODPS初始化

from odps import ODPS

o = ODPS('**your-access-id**', '**your-secret-access-key**', project='**your-project**', endpoint='**your-end-point**')


PyODPS接口

•表接口 : o.get_table   o.create_table

•Sql接口:o.run_sql(异步执行)o.execute_sql(同步执行)

PyOdpsDataFrameDataFrame(o.get_table)o.get_table).to_df()

•上传下载数据:create_upload_session() create_download_session()

五、实操展示


Airflow实操展示

请点击 视频 查看实操部分


Azkaban实操展示

请点击 视频 查看实操部分


Kettle实操展示

请点击 视频 查看实操部分


更多关于大数据计算、云数仓技术交流,欢迎扫码加入 “MaxCompute开发者社区” 钉钉群

MaxCompute 二维码拼图.png

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
4月前
|
SQL 人工智能 分布式计算
拥抱数据洪流:ODPS,从工具到智能基石的认知跃迁
ODPS正从计算工具进化为智能基石,重塑数据价值链条。它不仅是效率引擎,更是决策资产、信任桥梁与预见系统。其创新架构支持存算分离、AI融合计算与隐私保护,助力企业迎接AI革命。未来,ODPS将推动绿色智能,成为组织数字化转型的核心支撑平台。
161 3
|
4月前
|
存储 Java 大数据
Java 大视界 -- Java 大数据在智能家居能源消耗模式分析与节能策略制定中的应用(198)
简介:本文探讨Java大数据技术在智能家居能源消耗分析与节能策略中的应用。通过数据采集、存储与智能分析,构建能耗模型,挖掘用电模式,制定设备调度策略,实现节能目标。结合实际案例,展示Java大数据在智能家居节能中的关键作用。
|
4月前
|
存储 SQL 分布式计算
MaxCompute x 聚水潭:基于近实时数仓解决方案构建统一增全量一体化数据链路
聚水潭作为中国领先的电商SaaS ERP服务商,致力于为88,400+客户提供全链路数字化解决方案。其核心ERP产品助力企业实现数据驱动的智能决策。为应对业务扩展带来的数据处理挑战,聚水潭采用MaxCompute近实时数仓Delta Table方案,有效提升数据新鲜度和计算效率,提效比例超200%,资源消耗显著降低。未来,聚水潭将进一步优化数据链路,结合MaxQA实现实时分析,赋能商家快速响应市场变化。
237 0
|
9月前
|
分布式计算 大数据 数据处理
从Excel到大数据:别让工具限制你的思维!
从Excel到大数据:别让工具限制你的思维!
370 85
|
6月前
|
人工智能 算法 自动驾驶
AI和大数据:是工具,还是操控人心的“隐形之手”?
AI和大数据:是工具,还是操控人心的“隐形之手”?
175 1
|
8月前
|
JSON 分布式计算 DataX
【YashanDB知识库】使用DataX工具迁移yashan数据到maxcompute
本文介绍使用崖山适配的DataX工具进行数据库迁移的方法,包括单表迁移和批量表迁移。单表迁移需配置json文件并执行同步命令;批量迁移则通过脚本自动化生成json配置文件并完成数据迁移,最后提供数据比对功能验证迁移结果。具体步骤涵盖连接信息配置、表清单获取、json文件生成、数据迁移执行及日志记录,确保数据一致性。相关工具和脚本简化了复杂迁移过程,提升效率。
|
2月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
193 14
|
4月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
169 4
|
3月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
161 0

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute