开发者社区> 祎休> 正文

MaxCompute(原ODPS)开发入门指南——数据开发工具篇

简介: 大家在使用大数据计算服务MaxCompute时,最头疼就是我现在已有的数据如何快速上云?我的日志数据如何采集到MaxCompute上?等等。。。具体详见《MaxCompute(原ODPS)开发入门指南——数据上云篇》。
+关注继续查看

MaxCompute(原ODPS)开发入门指南——数据开发工具篇

写在最前面

>>>进入了解更多>>>阿里云数加·MaxCompute大数据计算服务.

大家在使用大数据计算服务MaxCompute时,最头疼就是我现在已有的数据如何快速上云?我的日志数据如何采集到MaxCompute上?等等。。。具体详见《MaxCompute(原ODPS)开发入门指南——数据上云篇》

SQL Cost

但是数据在MaxCompute上了之后,问题又来了,我怎么基于上面进行快速的数据开发,构建大数据仓库。
本文就重点为大家推荐和介绍开发工具:① 大数据开发套件Data IDE; ② MaxCompute Studio

大数据开发套件Data IDE

大数据开发套件基于MaxCompute强大的计算存储能力,提供多人协作开发能力且支持百万级别任务稳定调度系统的在线开发工具,在阿里巴巴集团内是建设大数据仓库平台的必备工具。

1.工作流设计器

通过拖拽式进行工作流任务的设计,包括上下游节点任务的依赖关系。包括SQL、MR、数据同步、机器学习、shell节点任务等。

SQL Cost

SQL Cost

2.数据集成

支持常见的数据源集成,提供可视化方式配置和脚本模式,开发者可以根据自己喜好进行选择。

SQL Cost

例子:ftp数据同步到MaxCompute的可视化配置界面。如下:

SQL Cost

例子:ftp数据同步到MaxCompute的脚本开发模式,包括reader和writer。如下:

SQL Cost

3.调度系统

大数据开发套件Data IDE支持调度周期类型:天、小时、分钟(5的倍数)、月、周。也就是说在大数据开发套件中如果做数据集成,最小的数据周期颗粒度为5分钟一次。具体可以在调度配置中进行设置:

SQL Cost

只需要进行下拉框配置即可设置工作流任务的调度周期和任务执行时间。

4.运维系统

提供可视化运维界面,完全解放数据开发运维的问题,包括任务的重跑、kill和补数据等操作。

SQL Cost

5.数据管理

在大数据开发套件中也提供了表级/字段级的数据血缘管理。同时提供整个组织级别的空间表权限管理,包括权限申请、授权和收回。

SQL Cost

详情可以进入了解大数据开发套件Data IDE

MaxCompute Studio

不同于大数据开发套件Data IDE,MaxCompute Studio是阿里云数加MaxCompute提供的本地集成开发环境,MaxCompute Studio 基于 IntelliJ IDEA 平台提供了一套扩展插件,皆在提升MaxCompute 用户的开发体验,给到用户不同开发体验的多种选择。

详情可以进入了解MaxCompute Studio更多信息。

SQL Cost

如下为我本地的开发环境界面:

SQL Cost

具体的安装配置和使用可以查看如下短视频:

MaxCompute Studio安装配置视频

总结

工欲善其事必先利其器。在进行数据开发之前需要根据自己的业务情况、个人喜好来选择正确的大数据开发套件。那么讲这么多,这两个具体在数据开发过程中的差异在哪?

【相同点】

两者都是基于MaxCompute之上的开发者工具,为开发者提供友好的开发体验。

【差异点】

① 调度系统:Data IDE具有强大且稳定的调度系统,在阿里集团内部稳定保障数据产生多年。适合数据开发者进行搭建大型数据仓库。而MaxCompute Studio更偏向于本地开发和数据分析,是没有自己的调度系统。

② UDF/MR开发:Data IDE本身不支持UDF/UDF源码开发和编译,只接受jar包资源方式上传的执行;而Studio提供UDF开发MR开发

③ Data IDE大数据开发套件是在线的开发工具,用户只需要能够上网即可进行。而MaxCompute Studio需要安装在本地,故需要对本地的环境有要求。

SQL Cost

SQL Cost

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
基础篇:数据库 SQL 入门教程(一)
基础篇:数据库 SQL 入门教程(一)
116 0
数据仓库解决方案——ODPS组件化改造之路
ODPS简介:ODPS(Open Data Processing Service),是阿里巴巴通用计算平台提供的一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案,现在已更名为MaxCompute,MaxCompute 向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。
112 0
【Android 逆向】Android 进程注入工具开发 ( 远程调用 | x86 架构的返回值获取 | arm 架构远程调用 )
【Android 逆向】Android 进程注入工具开发 ( 远程调用 | x86 架构的返回值获取 | arm 架构远程调用 )
28 0
欢迎使用Performance analyzer 开源小工具!
2013-5-08 - version 1.0.0 released2014-3-21 - version 1.1.0 released Fixed - log4j thread safe problemFeature - support logback 代码地址 基于perfj的性能分析工具,欢迎大家使用,也欢迎大家继续完善~
969 0
开发指南—数据类型—日期和时间类型
本文介绍了PolarDB-X支持的日期时间类型。
52 0
使用容器编排工具docker swarm安装clickhouse多机集群
1.首先需要安装docker最新版,docker 目前自带swarm容器编排工具 2.选中一台机器作为master,执行命令sudo docker  swarm init [options] 3,再需要加入集群的集群上执行此命令   4.
3534 0
+关注
祎休
阿里云MaxCompute产品经理,帮助每一个想使用大数据计算服务的同学轻松上云。
41
文章
0
问答
来源圈子
更多
MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。
+ 订阅
相关文档: MaxCompute
文章排行榜
最热
最新
相关电子书
更多
JS零基础入门教程(上册)
立即下载
性能优化方法论
立即下载
手把手学习日志服务SLS,云启实验室实战指南
立即下载