阿里云大数据ACP(一)大数据开发平台 DataWorks 1

简介: 阿里云大数据ACP(一)大数据开发平台 DataWorks 1

文章目录


一、DataWorks 简介

1.1 DataWorks 的功能概述

1.2 DataWorks 产品特点

1.3 DataWorks 产品优势

1.4 应用场景 (助力企业搭建大数据信息平台)


二、DataWorks 基本概念

2.1 组织与项目空间

2.2 任务(Task)

2.3 工作流、节点、依赖关系

2.4 任务(Task)类别

2.5 实例(Instance)

2.6 资源与函数


三、DataWorks 功能架构

3.1 功能模块

3.2 组织管理

3.3 项目管理

3.4 数据开发

3.5 数据管理

3.6 运维中心


四、DataWorks 角色隔离

4.1 DataWorks 中的角色


五、DataWorks 开发流程

5.1 新建项目空间

5.2 添加组织成员+项目成员

5.3 数据开发

5.4 数据开发流程

5.5 数据输入

5.6 数据加工

5.7 数据输出

5.8 代码发布

5.9 生产调度

5.10 生产运维


六、DataWorks 数据开发

6.1 数据开发总览

6.2 任务开发

6.3 任务类型

6.4 脚本开发

6.5 函数管理

6.6 发布管理

6.7 导入本地文件


七、DataWorks 调度配置

7.1 调度周期配置

7.2 调度参数配置

7.3 DataWorks 中的参数功能

7.4 调度依赖关系

7.5 跨周期依赖


八、数据管理

8.1 数据管理

8.2 全局概览

8.3 数据表的管理操作

8.4 数据权限


九、DataWorks 运维管理

9.1 运维管理

9.2 运维有关的权限

9.3 运维概览

9.4 手动任务 & 周期任务

9.5 监控报警


十、DataWorks 项目管理

10.1 项目管理综述

10.2 项目配置

10.3 项目成员管理

10.4 调度资源管理


一、DataWorks 简介


DataWorks(数据工场,原大数据开发套件)是阿里云重要的PaaS平台产品,提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。


DataWorks支持多种计算和存储引擎服务,包括离线计算MaxCompute、开源大数据引擎E-MapReduce、实时计算(基于Flink)、机器学习PAI、图计算服务Graph Compute和交互式分析服务等,并且支持用户自定义接入计算和存储服务。DataWorks提供全链路智能大数据及AI开发和治理服务。


1.png


1.1 DataWorks 的功能概述


全面托管的调度


DataWorks提供强大的调度功能,详情请参见调度配置。

支持根据时间、依赖关系,进行任务触发的机制。详情请参见时间属性和依赖关系。

支持每日千万级别的任务,根据DAG关系准确、准时地运行。

支持分钟、小时、天、周和月多种调度周期配置。

完全托管的服务,无需关心调度的服务器资源问题。

提供隔离功能,确保不同租户之间的任务不会相互影响。

DataWorks支持离线同步、Shell、ODPS SQL、ODPS MR等多种节点类型,通过节点之间的相互依赖,对复杂的数据进行分析处理。


数据转化:依托MaxCompute强大的能力,保证了大数据的分析处理性能。

数据同步:依托DataWorks中数据集成的强力支撑,支持超过20种数据源,为您提供稳定高效的数据传输功能。


可视化开发


DataWorks提供可视化的代码开发、工作流设计器页面,无需搭配任何开发工具,简单拖拽和开发,即可完成复杂的数据分析任务。只要有浏览器有网络,您即可随时随地进行开发工作。


监控告警


运维中心提供可视化的任务监控管理工具,支持以DAG图的形式展示任务运行时的全局情况,详情请参见运维中心。


1.2 DataWorks 产品特点

20200512105742714.png


1.3 DataWorks 产品优势


20200512105808325.png


1.4 应用场景 (助力企业搭建大数据信息平台)

20200512135347990.png


二、DataWorks 基本概念


2.1 组织与项目空间


20200512105853746.png


2.2 任务(Task)

20200512105948484.png


2.3 工作流、节点、依赖关系

20200512110020661.png


2.4 任务(Task)类别

20200512110046622.png


2.5 实例(Instance)

20200512110120788.png


说明:在阿里云大数据开发平台中,节点任务在执行时会被实例化,并以MaxCompute 实例的形式存在。实例会经历未运行、等待时间/等待资源、运行中,成功/失败几个状态。


2.6 资源与函数

2020051211014594.png


说明:资源与函数都是 MaxCompute 的概念。


三、DataWorks 功能架构


20200512110232827.png


3.1 功能模块

image.png


3.2 组织管理

image.png


3.3 项目管理

image.png


3.4 数据开发

image.png


3.5 数据管理

image.png


3.6 运维中心

image.png


四、DataWorks 角色隔离


4.1 DataWorks 中的角色

image.png


image.png



五、DataWorks 开发流程


image.png


5.1 新建项目空间

image.png


5.2 添加组织成员+项目成员

image.png


5.3 数据开发

image.png


5.4 数据开发流程

image.png


5.5 数据输入

image.png


5.6 数据加工

image.png


5.7 数据输出

image.png


5.8 代码发布

image.png


5.9 生产调度

image.png


5.10 生产运维

image.png


相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
目录
相关文章
|
6月前
|
数据采集 运维 DataWorks
DataWorks 千万级任务调度与全链路集成开发治理赋能智能驾驶技术突破
智能驾驶数据预处理面临数据孤岛、任务爆炸与开发运维一体化三大挑战。DataWorks提供一站式的解决方案,支持千万级任务调度、多源数据集成及全链路数据开发,助力智能驾驶模型数据处理与模型训练高效落地。
|
6月前
|
SQL DataWorks 关系型数据库
DataWorks+Hologres:打造企业级实时数仓与高效OLAP分析平台
本方案基于阿里云DataWorks与实时数仓Hologres,实现数据库RDS数据实时同步至Hologres,并通过Hologres高性能OLAP分析能力,完成一站式实时数据分析。DataWorks提供全链路数据集成与治理,Hologres支持实时写入与极速查询,二者深度融合构建离在线一体化数仓,助力企业加速数字化升级。
|
9月前
|
数据采集 SQL 人工智能
长文详解|DataWorks Data+AI一体化开发实战图谱
DataWorks是一站式智能大数据开发治理平台,内置阿里巴巴15年大数据建设方法论,深度适配阿里云MaxCompute、EMR、Hologres、Flink、PAI 等数十种大数据和AI计算服务,为数仓、数据湖、OpenLake湖仓一体数据架构提供智能化ETL开发、数据分析与主动式数据资产治理服务,助力“Data+AI”全生命周期的数据管理。
1461 5
|
数据采集 机器学习/深度学习 DataWorks
DataWorks产品评测:大数据开发治理的深度体验
DataWorks产品评测:大数据开发治理的深度体验
515 1
|
SQL 人工智能 自然语言处理
DataWorks年度发布:智能化湖仓一体数据开发与治理平台的演进
阿里云在过去15年中持续为268集团提供数据服务,积累了丰富的实践经验,并连续三年在IDC中国数据治理市场份额中排名第一。新一代智能数据开发平台DateWorks推出了全新的DateStudio IDE,支持湖仓一体化开发,新增Flink计算引擎和全面适配locs,优化工作流程系统和数据目录管理。同时,阿里云正式推出个人开发环境模式和个人Notebook,提升开发者体验和效率。此外,DateWorks Copilot通过自然语言生成SQL、代码补全等功能,显著提升了数据开发与分析的效率,已累计帮助开发者生成超过3200万行代码。
|
人工智能 Cloud Native 大数据
DataWorks深度技术解读:构建开放的云原生数据开发平台
Dateworks是一款阿里云推出的云原生数据处理产品,旨在解决数据治理和数仓管理中的挑战。它强调数据的准确性与一致性,确保商业决策的有效性。然而,严格的治理模式限制了开发者的灵活性,尤其是在面对多模态数据和AI应用时。为应对这些挑战,Dateworks进行了重大革新,包括云原生化、开放性增强及面向开发者的改进。通过Kubernetes作为资源底座,Dateworks实现了更灵活的任务调度和容器化支持,连接更多云产品,并提供开源Flowspec和Open API,提升用户体验。
|
SQL DataWorks 数据可视化
阿里云DataWorks评测:大数据开发治理平台的卓越表现
阿里云DataWorks是一款集数据集成、开发、分析与管理于一体的大数据平台,支持多种数据源无缝整合,提供可视化ETL工具和灵活的任务调度机制。其内置的安全体系和丰富的插件生态,确保了数据处理的高效性和安全性。通过实际测试,DataWorks展现了强大的计算能力和稳定性,适用于中小企业快速搭建稳定高效的BI系统。未来,DataWorks将继续优化功能,降低使用门槛,并推出更多灵活的定价方案,助力企业实现数据价值最大化。
|
分布式计算 DataWorks 搜索推荐
DataWorks产品评测:大数据开发治理平台的最佳实践与体验
DataWorks是阿里云推出的一款大数据开发治理平台,集成了多种大数据引擎,支持数据集成、开发、分析和任务调度。本文通过用户画像分析的最佳实践,评测了DataWorks的功能和使用体验,并提出了优化建议。通过实践,DataWorks在数据整合、清洗及可视化方面表现出色,适合企业高效管理和分析数据。
487 0
|
DataWorks 监控 数据建模
DataWorks产品体验评测
DataWorks产品体验评测
|
数据采集 人工智能 DataWorks
DataWorks产品最佳实践测评
DataWorks产品最佳实践测评

热门文章

最新文章