阿里云大数据ACP(一)大数据开发平台 DataWorks 1

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
大数据开发治理平台DataWorks,资源组抵扣包 750CU*H
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 阿里云大数据ACP(一)大数据开发平台 DataWorks 1

文章目录


一、DataWorks 简介

1.1 DataWorks 的功能概述

1.2 DataWorks 产品特点

1.3 DataWorks 产品优势

1.4 应用场景 (助力企业搭建大数据信息平台)


二、DataWorks 基本概念

2.1 组织与项目空间

2.2 任务(Task)

2.3 工作流、节点、依赖关系

2.4 任务(Task)类别

2.5 实例(Instance)

2.6 资源与函数


三、DataWorks 功能架构

3.1 功能模块

3.2 组织管理

3.3 项目管理

3.4 数据开发

3.5 数据管理

3.6 运维中心


四、DataWorks 角色隔离

4.1 DataWorks 中的角色


五、DataWorks 开发流程

5.1 新建项目空间

5.2 添加组织成员+项目成员

5.3 数据开发

5.4 数据开发流程

5.5 数据输入

5.6 数据加工

5.7 数据输出

5.8 代码发布

5.9 生产调度

5.10 生产运维


六、DataWorks 数据开发

6.1 数据开发总览

6.2 任务开发

6.3 任务类型

6.4 脚本开发

6.5 函数管理

6.6 发布管理

6.7 导入本地文件


七、DataWorks 调度配置

7.1 调度周期配置

7.2 调度参数配置

7.3 DataWorks 中的参数功能

7.4 调度依赖关系

7.5 跨周期依赖


八、数据管理

8.1 数据管理

8.2 全局概览

8.3 数据表的管理操作

8.4 数据权限


九、DataWorks 运维管理

9.1 运维管理

9.2 运维有关的权限

9.3 运维概览

9.4 手动任务 & 周期任务

9.5 监控报警


十、DataWorks 项目管理

10.1 项目管理综述

10.2 项目配置

10.3 项目成员管理

10.4 调度资源管理


一、DataWorks 简介


DataWorks(数据工场,原大数据开发套件)是阿里云重要的PaaS平台产品,提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。


DataWorks支持多种计算和存储引擎服务,包括离线计算MaxCompute、开源大数据引擎E-MapReduce、实时计算(基于Flink)、机器学习PAI、图计算服务Graph Compute和交互式分析服务等,并且支持用户自定义接入计算和存储服务。DataWorks提供全链路智能大数据及AI开发和治理服务。


1.png


1.1 DataWorks 的功能概述


全面托管的调度


DataWorks提供强大的调度功能,详情请参见调度配置。

支持根据时间、依赖关系,进行任务触发的机制。详情请参见时间属性和依赖关系。

支持每日千万级别的任务,根据DAG关系准确、准时地运行。

支持分钟、小时、天、周和月多种调度周期配置。

完全托管的服务,无需关心调度的服务器资源问题。

提供隔离功能,确保不同租户之间的任务不会相互影响。

DataWorks支持离线同步、Shell、ODPS SQL、ODPS MR等多种节点类型,通过节点之间的相互依赖,对复杂的数据进行分析处理。


数据转化:依托MaxCompute强大的能力,保证了大数据的分析处理性能。

数据同步:依托DataWorks中数据集成的强力支撑,支持超过20种数据源,为您提供稳定高效的数据传输功能。


可视化开发


DataWorks提供可视化的代码开发、工作流设计器页面,无需搭配任何开发工具,简单拖拽和开发,即可完成复杂的数据分析任务。只要有浏览器有网络,您即可随时随地进行开发工作。


监控告警


运维中心提供可视化的任务监控管理工具,支持以DAG图的形式展示任务运行时的全局情况,详情请参见运维中心。


1.2 DataWorks 产品特点

20200512105742714.png


1.3 DataWorks 产品优势


20200512105808325.png


1.4 应用场景 (助力企业搭建大数据信息平台)

20200512135347990.png


二、DataWorks 基本概念


2.1 组织与项目空间


20200512105853746.png


2.2 任务(Task)

20200512105948484.png


2.3 工作流、节点、依赖关系

20200512110020661.png


2.4 任务(Task)类别

20200512110046622.png


2.5 实例(Instance)

20200512110120788.png


说明:在阿里云大数据开发平台中,节点任务在执行时会被实例化,并以MaxCompute 实例的形式存在。实例会经历未运行、等待时间/等待资源、运行中,成功/失败几个状态。


2.6 资源与函数

2020051211014594.png


说明:资源与函数都是 MaxCompute 的概念。


三、DataWorks 功能架构


20200512110232827.png


3.1 功能模块

image.png


3.2 组织管理

image.png


3.3 项目管理

image.png


3.4 数据开发

image.png


3.5 数据管理

image.png


3.6 运维中心

image.png


四、DataWorks 角色隔离


4.1 DataWorks 中的角色

image.png


image.png



五、DataWorks 开发流程


image.png


5.1 新建项目空间

image.png


5.2 添加组织成员+项目成员

image.png


5.3 数据开发

image.png


5.4 数据开发流程

image.png


5.5 数据输入

image.png


5.6 数据加工

image.png


5.7 数据输出

image.png


5.8 代码发布

image.png


5.9 生产调度

image.png


5.10 生产运维

image.png


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 产品官网 https://www.aliyun.com/product/bigdata/ide 大数据&AI体验馆 https://workbench.data.aliyun.com/experience.htm#/ 帮助文档https://help.aliyun.com/zh/dataworks 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
目录
相关文章
|
6天前
|
人工智能 DataWorks 大数据
大数据AI一体化开发再加速:DataWorks 支持GPU类型资源
大数据开发治理平台 DataWorks 的Serverless资源组支持GPU资源类型,以免运维、按需付费、弹性伸缩的Serverless架构,将大数据处理与AI开发能力无缝融合。面向大数据&AI协同开发场景,DataWorks提供了交互式开发和分析工具Notebook。开发者在创建个人开发环境时,可以选择GPU类型的资源作为Notebook运行环境,以支持进行高性能的计算工作。本教程将基于开源多模态大模型Qwen2-VL-2B-Instruct,介绍如何使用 DataWorks Notebook及LLaMA Factory训练框架完成文旅领域大模型的构建。
72 24
|
7天前
|
SQL 分布式计算 数据挖掘
阿里云 MaxCompute MaxQA 开启公测,解锁近实时高效查询体验
阿里云云原生大数据计算服务 MaxCompute 推出 MaxQA(原 MCQA2.0)查询加速功能,在独享的查询加速资源池的基础上,对管控链路、查询优化器、执行引擎、存储引擎以及缓存机制等多个环节进行全面优化,显著减少了查询响应时间,适用于 BI 场景、交互式分析以及近实时数仓等对延迟要求高且稳定的场景。现正式开启公测,欢迎广大开发者及企业用户参与,解锁高效查询体验!
|
8天前
|
存储 分布式计算 物联网
美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台
美的楼宇科技基于阿里云 EMR Serverless Spark 建设 IoT 数据平台,实现了数据与 AI 技术的有效融合,解决了美的楼宇科技设备数据量庞大且持续增长、数据半结构化、数据价值缺乏深度挖掘的痛点问题。并结合 EMR Serverless StarRocks 搭建了 Lakehouse 平台,最终实现不同场景下整体性能提升50%以上,同时综合成本下降30%。
|
1月前
|
机器学习/深度学习 人工智能 分布式计算
我的阿里云社区年度总结报告:Python、人工智能与大数据领域的探索之旅
我的阿里云社区年度总结报告:Python、人工智能与大数据领域的探索之旅
124 35
|
2月前
|
存储 人工智能 数据管理
|
1月前
|
存储 人工智能 数据管理
媒体声音|专访阿里云数据库周文超博士:AI就绪的智能数据平台设计思路
在生成式AI的浪潮中,数据的重要性日益凸显。大模型在实际业务场景的落地过程中,必须有海量数据的支撑:经过训练、推理和分析等一系列复杂的数据处理过程,才能最终产生业务价值。事实上,大模型本身就是数据处理后的产物,以数据驱动的决策与创新需要通过更智能的平台解决数据多模处理、实时分析等问题,这正是以阿里云为代表的企业推动 “Data+AI”融合战略的核心动因。
|
1月前
|
数据采集 机器学习/深度学习 DataWorks
DataWorks产品评测:大数据开发治理的深度体验
DataWorks产品评测:大数据开发治理的深度体验
133 1
|
2月前
|
SQL 人工智能 自然语言处理
DataWorks年度发布:智能化湖仓一体数据开发与治理平台的演进
阿里云在过去15年中持续为268集团提供数据服务,积累了丰富的实践经验,并连续三年在IDC中国数据治理市场份额中排名第一。新一代智能数据开发平台DateWorks推出了全新的DateStudio IDE,支持湖仓一体化开发,新增Flink计算引擎和全面适配locs,优化工作流程系统和数据目录管理。同时,阿里云正式推出个人开发环境模式和个人Notebook,提升开发者体验和效率。此外,DateWorks Copilot通过自然语言生成SQL、代码补全等功能,显著提升了数据开发与分析的效率,已累计帮助开发者生成超过3200万行代码。
|
2月前
|
人工智能 Cloud Native 大数据
DataWorks深度技术解读:构建开放的云原生数据开发平台
Dateworks是一款阿里云推出的云原生数据处理产品,旨在解决数据治理和数仓管理中的挑战。它强调数据的准确性与一致性,确保商业决策的有效性。然而,严格的治理模式限制了开发者的灵活性,尤其是在面对多模态数据和AI应用时。为应对这些挑战,Dateworks进行了重大革新,包括云原生化、开放性增强及面向开发者的改进。通过Kubernetes作为资源底座,Dateworks实现了更灵活的任务调度和容器化支持,连接更多云产品,并提供开源Flowspec和Open API,提升用户体验。
|
2月前
|
机器学习/深度学习 分布式计算 数据挖掘
MaxFrame 性能评测:阿里云MaxCompute上的分布式Pandas引擎
MaxFrame是一款兼容Pandas API的分布式数据分析工具,基于MaxCompute平台,极大提升了大规模数据处理效率。其核心优势在于结合了Pandas的易用性和MaxCompute的分布式计算能力,无需学习新编程模型即可处理海量数据。性能测试显示,在涉及`groupby`和`merge`等复杂操作时,MaxFrame相比本地Pandas有显著性能提升,最高可达9倍。适用于大规模数据分析、数据清洗、预处理及机器学习特征工程等场景。尽管存在网络延迟和资源消耗等问题,MaxFrame仍是处理TB级甚至PB级数据的理想选择。
75 4