MaxCompute(原ODPS)开发入门指南——数据开发工具篇

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大家在使用大数据计算服务MaxCompute时,最头疼就是我现在已有的数据如何快速上云?我的日志数据如何采集到MaxCompute上?等等。。。具体详见《MaxCompute(原ODPS)开发入门指南——数据上云篇》。

MaxCompute(原ODPS)开发入门指南——数据开发工具篇

写在最前面

>>>进入了解更多>>>阿里云数加·MaxCompute大数据计算服务.

大家在使用大数据计算服务MaxCompute时,最头疼就是我现在已有的数据如何快速上云?我的日志数据如何采集到MaxCompute上?等等。。。具体详见《MaxCompute(原ODPS)开发入门指南——数据上云篇》

SQL Cost

但是数据在MaxCompute上了之后,问题又来了,我怎么基于上面进行快速的数据开发,构建大数据仓库。
本文就重点为大家推荐和介绍开发工具:① 大数据开发套件Data IDE; ② MaxCompute Studio

大数据开发套件Data IDE

大数据开发套件基于MaxCompute强大的计算存储能力,提供多人协作开发能力且支持百万级别任务稳定调度系统的在线开发工具,在阿里巴巴集团内是建设大数据仓库平台的必备工具。

1.工作流设计器

通过拖拽式进行工作流任务的设计,包括上下游节点任务的依赖关系。包括SQL、MR、数据同步、机器学习、shell节点任务等。

SQL Cost

SQL Cost

2.数据集成

支持常见的数据源集成,提供可视化方式配置和脚本模式,开发者可以根据自己喜好进行选择。

SQL Cost

例子:ftp数据同步到MaxCompute的可视化配置界面。如下:

SQL Cost

例子:ftp数据同步到MaxCompute的脚本开发模式,包括reader和writer。如下:

SQL Cost

3.调度系统

大数据开发套件Data IDE支持调度周期类型:天、小时、分钟(5的倍数)、月、周。也就是说在大数据开发套件中如果做数据集成,最小的数据周期颗粒度为5分钟一次。具体可以在调度配置中进行设置:

SQL Cost

只需要进行下拉框配置即可设置工作流任务的调度周期和任务执行时间。

4.运维系统

提供可视化运维界面,完全解放数据开发运维的问题,包括任务的重跑、kill和补数据等操作。

SQL Cost

5.数据管理

在大数据开发套件中也提供了表级/字段级的数据血缘管理。同时提供整个组织级别的空间表权限管理,包括权限申请、授权和收回。

SQL Cost

详情可以进入了解大数据开发套件Data IDE

MaxCompute Studio

不同于大数据开发套件Data IDE,MaxCompute Studio是阿里云数加MaxCompute提供的本地集成开发环境,MaxCompute Studio 基于 IntelliJ IDEA 平台提供了一套扩展插件,皆在提升MaxCompute 用户的开发体验,给到用户不同开发体验的多种选择。

详情可以进入了解MaxCompute Studio更多信息。

SQL Cost

如下为我本地的开发环境界面:

SQL Cost

具体的安装配置和使用可以查看如下短视频:

MaxCompute Studio安装配置视频

总结

工欲善其事必先利其器。在进行数据开发之前需要根据自己的业务情况、个人喜好来选择正确的大数据开发套件。那么讲这么多,这两个具体在数据开发过程中的差异在哪?

【相同点】

两者都是基于MaxCompute之上的开发者工具,为开发者提供友好的开发体验。

【差异点】

① 调度系统:Data IDE具有强大且稳定的调度系统,在阿里集团内部稳定保障数据产生多年。适合数据开发者进行搭建大型数据仓库。而MaxCompute Studio更偏向于本地开发和数据分析,是没有自己的调度系统。

② UDF/MR开发:Data IDE本身不支持UDF/UDF源码开发和编译,只接受jar包资源方式上传的执行;而Studio提供UDF开发MR开发

③ Data IDE大数据开发套件是在线的开发工具,用户只需要能够上网即可进行。而MaxCompute Studio需要安装在本地,故需要对本地的环境有要求。

SQL Cost

SQL Cost

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1月前
|
存储 分布式计算 数据可视化
大数据常用技术与工具
【10月更文挑战第16天】
110 4
|
1月前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
98 1
|
3月前
|
分布式计算 DataWorks 关系型数据库
MaxCompute 生态系统中的数据集成工具
【8月更文第31天】在大数据时代,数据集成对于构建高效的数据处理流水线至关重要。阿里云的 MaxCompute 是一个用于处理大规模数据集的服务平台,它提供了强大的计算能力和丰富的生态系统工具来帮助用户管理和处理数据。本文将详细介绍如何使用 DataWorks 这样的工具将 MaxCompute 整合到整个数据处理流程中,以便更有效地管理数据生命周期。
130 0
|
23天前
|
机器学习/深度学习 搜索推荐 大数据
大数据与教育:学生表现分析的工具
【10月更文挑战第31天】在数字化时代,大数据成为改善教育质量的重要工具。本文探讨了大数据在学生表现分析中的应用,介绍学习管理系统、智能评估系统、情感分析技术和学习路径优化等工具,帮助教育者更好地理解学生需求,制定个性化教学策略,提升教学效果。尽管面临数据隐私等挑战,大数据仍为教育创新带来巨大机遇。
|
1月前
|
存储 分布式计算 大数据
大数据的工具都有哪些?
【10月更文挑战第9天】大数据的工具都有哪些?
77 1
|
3月前
|
数据采集 DataWorks 数据挖掘
提升数据分析效率:DataWorks在企业级数据治理中的应用
【8月更文第25天】本文将探讨阿里巴巴云的DataWorks平台如何通过建立统一的数据标准、规范以及实现数据质量监控和元数据管理来提高企业的数据分析效率。我们将通过具体的案例研究和技术实践来展示DataWorks如何简化数据处理流程,减少成本,并加速业务决策。
458 54
|
3月前
|
SQL 分布式计算 DataWorks
利用DataWorks构建高效数据管道
【8月更文第25天】本文将详细介绍如何使用阿里云 DataWorks 的数据集成服务来高效地收集、清洗、转换和加载数据。我们将通过实际的代码示例和最佳实践来展示如何快速构建 ETL 流程,并确保数据管道的稳定性和可靠性。
206 56
|
2月前
|
存储 分布式计算 Hadoop
大数据分析的工具
大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源:传感器,气候信息,公开的信息,如杂志,报纸,文章。大数据产生的其他例子包括购买交易记录,网络日志,病历,军事监控,视频和图像档案,及大型电子商务。
44 8
|
1月前
|
分布式计算 Hadoop 数据挖掘
6个常用大数据分析工具集锦
6个常用大数据分析工具集锦
54 0
|
2月前
|
分布式计算 Hadoop 大数据
28个大数据的高级工具汇总
文章汇总了28种大数据高级工具,并对Hadoop、Spark、Storm等关键技术进行了详细介绍,同时还提供了获取大数据集的多个资源链接。
72 0

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 下一篇
    无影云桌面