阿里云大学精品课程:深入理解阿里云数加大数据开发套件Data IDE-基本知识

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 基于阿里云数加·MaxCompute构建大数据仓库的开发工具利器Data IDE《MaxCompute(原ODPS)开发入门指南——数据开发工具篇》,那么基于Data IDE进行数据开发想必也遇到一些不少的困惑,就自己在培训过程中的一些经验或者说阿里集团内的踩坑之路与大家在此分享,也欢迎拍砖。

阿里云大学精品课程:深入理解阿里云数加大数据开发套件Data IDE-基本知识

写在最前面

>>>进入了解更多>>>阿里云数加·MaxCompute大数据计算服务.

基于阿里云数加·MaxCompute构建大数据仓库的开发工具利器Data IDE《MaxCompute(原ODPS)开发入门指南——数据开发工具篇》,那么基于Data IDE进行数据开发想必也遇到一些不少的困惑,就自己在培训过程中的一些经验或者说阿里集团内的踩坑之路与大家在此分享,也欢迎拍砖。

SQL Cost

大数据仓库业务架构

类似于传统数据仓库,我们都会经历ETL的过程,E-数据抽取,T-数据转换,L-数据装载。但在大数据时代下,数据仓库在数据清洗建模过程中,稍微有些不同,准确的说,他是ELT的过程。首先需要将散落在各地的数据统一进行数据采集到大数据计算服务上,这个过程就是E和L。然后基于大数据计算服务的大存储和高性能计算能力进行数据的清洗和转化,也就是T。具体可以见如下图:

SQL Cost

1.数据采集与整合

根据自己公司业务情况,数据大体可以分为云业务系统的数据和本地业务系统的数据。云业务系统数据,可能业务系统已经在云上了,比如数据就在RDS上或者日志数据就在ECS上,这种情况开发成本最低,直接可以使用Log或者Data IDE-数据采集模块进行数据抽取和转载。

更多数据上云方式:【MaxCompute(原ODPS)开发入门指南——数据上云篇

SQL Cost

2.数据加工、存储与管理

大数据开发套件Data IDE是基于MaxCompute 之上的数据开发工具,在阿里巴巴集团内部也是身经百战,经历过双11大考,都得益于其背后强大的调度系统。

数据加工清洗建模都需要用户在Data IDE中编辑工作流任务,根据自己的业务逻辑来配置上下游关系和调度时间。支持调度周期类型:天、小时、分钟(5的倍数)、月、周。也就是说在大数据开发套件中如果做数据集成,最小的数据周期颗粒度为5分钟一次。具体可以在调度配置中进行设置:

SQL Cost

只需要进行下拉框配置即可设置工作流任务的调度周期和任务执行时间。

3.数据应用与消费

数据的清洗、加工最终被下游系统所消费,主要会进行报表展示或其他更深层次的挖掘分析。那阿里云Quick BI也与MaxCompute无缝进行对接,也支持将制作好的报表嵌入到第三方系统中。阿里云Quick BI如下示意图:

SQL Cost

SQL Cost

4.数据管理

大家从上面的架构图中也可以看出,数据只有流经MaxCompute才可被记录,包括他的表级别血缘关系和字段级血缘关系。

务必掌握的Data IDE专业术语

  • 项目空间:等同于MaxCompute project,项目空间是大数据开发平台最基本的组织对象,类似于传统数据库的DataBase。大数据开发套件的项目空间,是进行多组织隔离和访问控制的主要边界,也是用户管理表(Table)、资源(Resource)、自定义函数(UDF)、节点(Node)、工作流(WorkFlow)、权限等的基本单元。 在大数据开发平台中,一个项目空间对应绑定一个MaxCompute project。

  • 工作流:工作流是一个DAG图(有向无环图),其描述了作业中多个节点之间的逻辑(依赖关系)和规则(运行约束)。

  • 工作流任务/节点:工作流任务是一个完整的独立调度的整体。工作流节点属于工作流任务的子对象,是数据处理和分析过程的基本单元,每个节点任务对应工作流任务DAG图中的一个节点,其可以是一个SQL Query、命令和MapReduce程序。

  • 节点任务:节点任务也是一个完整的独立调度的整体,也是数据处理和分析过程的基本单元。

  • 依赖关系:描述两个或多个节点/工作流之间的语义连接关系,其中上游节点/工作流的运行状态可以影响下游节点/工作流的运行状态,反之则不成立。

  • 在大数据开发套件中,节点任务在执行时会被实例化,并以MaxCompute实例的形式存在。实例会经历未运行、等待时间/等待资源、运行中、成功/失败几个状态。当天晚上23:30节点转实例!

当天晚上23:30节点转实例!也就是说,在当天23:30之前提交到调度系统的配置项都会转实例即生效,过了这个点提交的任务则需要再隔一天进行生效。这一点务必注意!!!!

  • 资源:资源是大数据开发套件的特有概念,用户可以上传本地自定义的JAR或文件作为资源,在节点运行时调用。如MaxCompute MR需要上传jar包作为资源来进行执行。

角色隔离

在大数据时代,数据是一个公司的生命,在一个团队中如何进行一个角色和权限的隔离,以保障数据的安全性。那Data IDE在角色和权限上也做了很多工作,总体上角色可以分为:组织管理员、项目管理员、开发、运维、部署和访客。具体如下:

SQL Cost

项目空间的设置

在阿里云数加·大数据开发套件中,也提供了多项目空间之间的发布流程,但是在业务划分过程中,需要根据自己公司业务情况来定,一般情况下可以按照如下规则来进行项目的配置:

  1. 创建单个项目空间:适用于业务较单一,成员角色基本一致,无需严格的经过数据开发>测试>预发>生产等开发流程。
  2. 创建开发/生产项目空间:适用于业务相对复杂,又对生产安全性要求很高的,需要经过开发>测试>生产流程。

SQL Cost

↓↓↓↓分割线↓↓↓↓

之前断断续续写了几篇,也有几篇一直是热文,对大家在开发过程中也起到了一定的帮助作用。总体罗列如下,给大家提供个索引:

SQL Cost

【数据架构解读】基于阿里云数加StreamCompute和MaxCompute构建的访问日志统计分析

【Best Practice】基于阿里云数加·StreamCompute快速构建网站日志实时分析大屏

【Best Practice】基于阿里云数加·MaxCompute及Quick BI构建网站用户画像分析

【MaxCompute(原ODPS)开发入门指南——计量计费篇

【MaxCompute(原ODPS)开发入门指南——数据上云篇

MaxCompute(原ODPS)开发入门指南——数据开发工具篇

---华丽的分割线---

《云数据·大计算:海量日志数据分析与应用》Workshop-入口

《在线用户行为分析:基于流式计算的数据处理及应用》Workshop-入口

SQL Cost

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
4月前
|
IDE API 开发工具
通过IDE插件体验阿里云OpenAPI的高效集成, 精品礼品等你来拿!
轻量级的开放API工具——Alibaba Cloud Developer Toolkit及Alibaba Cloud API Toolkit。这些插件支持快速查阅阿里云产品的开放API,提供API调试与SDK示例生成等功能,帮助开发者轻松集成阿里云服务。您可通过JetBrains Marketplace或VS Code Marketplace搜索安装,完成身份验证后即刻体验。欢迎分享您的使用反馈,有机会获得精美礼品!
|
6月前
|
IDE Java 开发工具
阿里云云效产品使用问题之在代码域中,可以通过什么方法将代码合并的内容在IDE中查看
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。
|
7月前
|
人工智能 IDE API
灵动指尖 :阿里云智能编码插件 更好的为IDE内置社区服务
灵动指尖 :阿里云智能编码插件 更好的为IDE内置社区服务
949 0
|
机器学习/深度学习 数据采集 人工智能
云端IDE:阿里云机器学习与PAI-DSW | 《阿里云机器学习PAI-DSW入门指南》
本节将带着大家掀开阿里云机器学习技术大图的一角,看看阿里云机器学习,特别是机器学习工程上的发展、沉淀和创新。
云端IDE:阿里云机器学习与PAI-DSW | 《阿里云机器学习PAI-DSW入门指南》
|
SQL 分布式计算 大数据
深入阿里云大数据IDE–MaxCompute Studio
在云栖社区主办的云栖计算之旅第5期–大数据与人工智能分享中,阿里云计算平台高级专家薛明为大家深入地介绍了阿里云大数据IDE–MaxCompute Studio,并对于其特性和背后的技术思想进行了讲解。
9660 1
|
分布式计算 IDE 大数据
【大数据新手上路】“零基础”系列课程--如何通过大数据开发套件Data IDE玩转大数据
老板每天都要出这些业务数据(销售总额、总交易量、总点击次数、总加入购物车次数、总加入收藏夹次数...),我得想个一劳永逸的方法了…
8412 0
|
IDE 物联网 开发工具
《ServerSuperIO Designer IDE使用教程》- 6.增加与阿里云物联网(IOT)对接服务,实现数据交互。发布:v4.2.4 版本
v4.2.4 更新内容:1.增加了对接阿里物联网平台的服务。下载地址:官方下载   6. 增加与阿里云物联网(IOT)对接服务,实现数据交互  6.1    概述          为了满足业务系统数据上云的要求,ServerSuperIO集成了对接阿里云物联网的服务。
1613 0
|
IDE Java 开发工具
《Spring Data实战》——2.4 IDE集成
在3.0版本中,Spring工具套件(Spring Tool Suite,STS)提供了与Spring Data Repository抽象进行集成的功能。STS为Spring Data所提供的核心支持是查找方法的查询衍生机制。
1700 0
|
7月前
|
网络协议 IDE 网络安全
GoLand远程开发IDE:使用SSH远程连接服务器进行云端编程
GoLand远程开发IDE:使用SSH远程连接服务器进行云端编程
811 0
|
IDE Go 开发工具
Go开发IDE全览:GoLand vs VSCode全面解析
Go开发IDE全览:GoLand vs VSCode全面解析
537 0