外部工具连接SaaS模式云数仓MaxCompute—ETL工具篇

简介: 本文主要讲解开源ETL工具如何连接MaxCompute

直播视频请点击 直播 观看。

本次分享将从五个方面讲解。

01 走进MaxCompute生态

02 开源ETL工具

03 客户端简介

04 PyODPS简介

05 实操展示

一、走进MaxCompute生态

首先来看下 MaxCompute 产品能支持的外部工具,大概可以分为商业智能、开发管理、传输调度、编程接口。本次分享主要关注商业智能(BI)工具这一板块,可以看到 MaxCompute 官方集成有Tableau、FineReport、FineBI、Quick BI。其中Tableau、FineBI、FineReport是在特定的版本会内置 MaxCompute 驱动,如果需要通过JDBC连接 MaxCompute ,还是需要手动加载 MaxCompute JDBC驱动,Quick BI作为阿里云的产品,是可以通过阿里云账号和AK信息直接连接的,同时在8.6及以上版本的Yonghong Desktop也是可以通过内置驱动连接 MaxCompute。在商业智能部分还有开源BI工具,Superset、Davinci也可以连接 MaxCompute。


在开发管理部分,是我们第二讲的内容,包括DBeaver、DataGrip、SQL Workbench/J。

同时我们的产品还集成了 Kafka和Flink开源引擎。支持的ETL开源工具有Kettle、Airflow、Azkaban,这一部分是本次分享来介绍。支持的编程接口有Python、JDBC、SQLAlchemy。


除了支持的外部工具,MaxCompute 自身也有开放生态,包括内建开源引擎 Spark,迁移工具MMA,开发生态PyODPS、Mars,工具生态Web-Console等。同时 MaxCompute 也与阿里云内部产品共同构建了丰富的解决方案生态和数据应用生态。


二、开源ETL工具

主要介绍一下开源ETL工具通过哪些方式连接 MaxCompute 。开源ETL工具包含,Airflow、Azkaban、Kettle。

首先看下Airflow,Airflow是python编写的一款调度工具,内部有Python OperatorBash Operator , 等各种Operator。也支持自定义插件的开发,Airflow是通过command Operator控制MaxCompute客户端通过命令行的方式,提交SQL任务,对于Python SDK可以通过Python py文件这种方式提交,Java sdk可以通过java -jar方式提交。因为Airflow支持Python Operator,所以可以直接集成PyODPS,可以直接写Python代码。第二部分是Azkaban,Azkaban主要是通过command提交我们的任务,可以通过MaxCompute提供的编程接口提交SQL任务。Kettle可以通过JDBC直接连接MaxCompute。

02.jpg


三、MaxCompute CLI客户端简介

MaxCompute客户端支持运行在Linux/Mac/Window三个系统上。

安装

•JDK 1.8以上。

•已经创建MaxCompute项目,拥有该项目权限的账号

配置

•修改conf文件夹下的odps_config.ini文件

•填写ak、项目名、endpoint

使用

•Linux/Mac上执行bin目录下的odpscmd,windows执行bin目录下的odpscmd.bat

•支持执行单个sql语句,执行sql文件,上传资源,上传下载数据(Tunnel)、授权等操作

四、MaxCompute Python SDK(PyODPS)简介

安装

•PC客户端安装依赖于python环境,执行 pip install pyodps

•DataWorks内建PyODPS支持,通过新建PyOdps节点提交Python任务

PyODPS初始化

from odps import ODPS

o = ODPS('**your-access-id**', '**your-secret-access-key**', project='**your-project**', endpoint='**your-end-point**')


PyODPS接口

•表接口 : o.get_table   o.create_table

•Sql接口:o.run_sql(异步执行)o.execute_sql(同步执行)

PyOdpsDataFrameDataFrame(o.get_table)o.get_table).to_df()

•上传下载数据:create_upload_session() create_download_session()

五、实操展示


Airflow实操展示

请点击 视频 查看实操部分


Azkaban实操展示

请点击 视频 查看实操部分


Kettle实操展示

请点击 视频 查看实操部分


更多关于大数据计算、云数仓技术交流,欢迎扫码加入 “MaxCompute开发者社区” 钉钉群

MaxCompute 二维码拼图.png

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
9天前
|
Web App开发 编解码 Java
B/S基层卫生健康云HIS医院管理系统源码 SaaS模式 、Springboot框架
基层卫生健康云HIS系统采用云端SaaS服务的方式提供,使用用户通过浏览器即能访问,无需关注系统的部署、维护、升级等问题,系统充分考虑了模板化、配置化、智能化、扩展化等设计方法,覆盖了基层医疗机构的主要工作流程,能够与监管系统有序对接,并能满足未来系统扩展的需要。
39 4
|
18天前
|
运维 监控 JavaScript
SaaS模式Java全套云HIS源码包含EMR、LIS
满足基层医院各类业务需求的云HIS系统。它能帮助基层医院完成日常各类业务,提供病患挂号支持、病患问诊、电子病历、开药发药、会员管理、统计查询、医生站和护士站等一系列常规功能,实现多层机构之间的融合管理。
22 0
|
2月前
|
存储 JSON 大数据
大数据离线数仓---金融审批数仓
大数据离线数仓---金融审批数仓
133 1
|
3月前
|
SQL 分布式计算 监控
MaxCompute提供了一些工具以帮助您监控作业和资源使用情况。
【2月更文挑战第4天】MaxCompute提供了一些工具以帮助您监控作业和资源使用情况。
29 8
|
5天前
|
人工智能 监控 安全
JAVA基于SaaS模式的智慧工地云平台源码(云智慧工地解决方案)
智慧工地支持多端展示(PC端、手机端、平板端)SaaS微服务架构,项目监管端,工地管理端源码
12 0
|
14天前
|
缓存 小程序
Java+saas模式 智慧校园系统源码MySQL5.7+ elmentui前后端分离架构 让校园管理更高效的数字化平台系统源码
智慧校园是在数字通增强版基础上,研发的一套面向教育行业的数字化校园软件,其显著特点是集学校网站、协同办公、即时通讯、网络空间、移动办公于一体。在满足教职工日常办公需要的同时,拥有诸多教育行业功能,并提供便捷易用的“家校通”平台以满足老师、学生、家长的日常交流。数字通智慧校园教育版中的协同办公、即时通讯、移动办公等功能模块随通用版一同改进,将网络办公最新技术应用到教育行业。
21 1
|
16天前
|
供应链 安全 大数据
基于B/S架构的云计算技术区域健康云HIS系统源码 SaaS多医院模式
该系统通过区域云HIS的方式,按照信息系统三级等保相关要求统一部署在总院信息中心,通过政务外网和各基层卫生院互通。基层医生打开浏览器即可访问系统。整套系统统一管理统一维护,加强系统安全防护能力,全力保障医疗卫生大数据安全。
21 5
|
19天前
|
消息中间件 缓存 运维
java+saas模式医院云HIS系统源码Java+Spring+MySQL + MyCat融合BS版电子病历系统,支持电子病历四级
云HIS系统是一款满足基层医院各类业务需要的健康云产品。该产品能帮助基层医院完成日常各类业务,提供病患预约挂号支持、病患问诊、电子病历、开药发药、会员管理、统计查询、医生工作站和护士工作站等一系列常规功能,还能与公卫、PACS等各类外部系统融合,实现多层机构之间的融合管理。
39 1
|
2月前
|
人工智能 监控 数据可视化
SaaS模式java智慧工地源码 AI视频智能分析解决工地安监需求 有演示
智慧工地系统充分利用计算机技术、互联网、物联网、云计算、大数据等新一代信息技术,以PC端,移动端,平板端三位一体的管控方式为企业现场工程管理提供了先进的技术手段。让劳务、设备、物料、安全、环境、能源、资料、计划、质量、视频监控等十大管理环节变得智慧可控。为建设集团、施工企业、政府监管部门等提供一站式工地现场管理信息化解决方案,是一种崭新的工程现场一体化管理模式。
18 2
|
2月前
|
传感器 人工智能 数据可视化
Java智慧工地监管一体化云平台APP源码 SaaS模式
高支模监测:高支模立杆及倾斜角度,高支模立杆的荷载,架体的水平位移以及模板沉降情况,当检测数据超过预警值时,实时报警。
32 2

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute