DataWorks

本文涉及的产品
大数据开发治理平台 DataWorks,不限时长
简介: DataWorks

DataWorks介绍

DataWorks(数据工厂,原大数据库开发套件)是阿里云数加重要的PaaS平台产品,它提供全面托管的工作流服务,一站式开发管理界面,帮助企业专注于数据价值的挖掘和探索。
它是一套基于MaxCompute(原ODPS)的DW解决方案,他集成了阿里多年的DW实施经验,提供数据集成、处理、分析和管理功能,并为代码开发、调试、发布、运维、监控和管理提供了一个高效、安全的离线数据开发环境。

全面托管的调度

强大的调度能力,千万级别的任务调度;
支持按照时间、依赖关系的任务触发机制;
支持每日任务按照DAG关系准确、准时运行;
支持分钟、小时、天、周和月多种调度周期配置;
完全托管的服务,无需关心调度服务器资源问题;
租户之间提供隔离,保证不同租户之间的任务不会互相影响。

支持多种任务类型

支持数据同步、SHELL、MaxCompute SQL、MaxCompute MR等多种任务类型,通过任务之间的相互依赖完成复杂的数据分析处理。

可视化开发

提供可视化的代码开发、工作流设计器页面,无需搭配任何开发工具,简单的拖拽和开发就可以完成复杂的数据分析任务。
只要有浏览器、有网络,便可随时随地进行开发工作。

监控告警

运维中心提供可视化的任务监控管理工具,支持以DAG图的形式展示任务运行时的全局情况;
可方便地配置短信、邮件报警,任务发生错误可及时通知相关人员,保证业务正常运行。

DataWorks产品特点

基于MaxCompute:一套基于Max Compute(原ODPS)的数据开发、数据管理工具。
清晰可见的血缘:基于统一的元数据服务提供数据资源管理视图、可视化的数据血缘分析、清晰展现数据表的输入与输出,方便追溯其处理过程。
一站式数据开发:提供数据同步、数据加工、一键发布、调度引擎等一站式大数据开发服务。
可视化开发界面:面向数据开发者、数据运维人员,项目管理者提供了可视化的开发界面。

产品优势

1、专业
解决数据同步、开发与运维问题。全面提升大数据加工的效率,降低成本。
2、易用
屏蔽云端复杂性,轻松完成云端数据同步。灵活撰写数据处理代码,极简任务管理。
3、大数据处理能力
与MaxCompute(原ODPS)完美融合,释放其处理能力。实现数据价值的深度挖掘与业务的数据化运营。

DataWorks基本概念

组织与项目空间

组织

组织是大数据平台特有概念,一个公司开通大数据平台服务就创建一个组织,一个组织内创建多个项目空间。组织之间互相隔离,一个账号只能所属一个组织。元数据按组织隔离,只能查看本组织下的表元数据。

项目空间(project)

项目空间时数据开发中最基本的组织对象,类似于传统数据库的database。数据开发的项目空间,是进行多组织隔离和访问控制的主要边界,也是用户管理表(table)、资源(resource)、自定义函数(UDF)、作业(job)、节点(node)、工作流(workflow)、权限等的基本单元。

任务(task)

任务是指定义对数据执行的操作。每个任务使用0或0个以上的数据表(数据集)作为输入,生成一个或多个数据表(数据集)作为输出。
如:
使用数据同步节点任务,将数据从RDS复制到MaxCompute。
使用MaxCompute SQL节点任务运行MaxCompute SQL来进行数据的转换。
使用工作流任务,通过内部几个不同的SQL内部节点完成一系列的数据转换。

工作流(WorkFlow)

工作流是一个DAG图(有向无环图),其描述了作业中多个节点之间的逻辑(依赖关系)和规则(运行越是)。

节点(Node)

节点属于工作流的字对象,也称为任务,是数据开发数据处理和分析过程的最基本单元,每个任务对应DAG图中的一个节点,其可以是一个SQL Query、命令和MapReduce程序。

依赖关系(Dependency)

依赖关系是描述两个或多个节点/工作流之间的语义连接关系,其中上游节点/工作流的运行状态可以影响下游节点/工作流的运行状态,反正则不成立。

实例(Instance)

在调度系统中的任务经过调度系统、手动触发运行后会生成一个实例,实例代表了某个任务在某时某刻执行的一个快照,实例中会有任务的运行时间、运行状态、运行日志等信息。

资源(Resource)

资源是数据开发的特有概念,用户可以上传本地自定义的JAR或文件作为资源,在节点运行时调用,如,在数据开发中运行MapReduce程序,需要将MapReduce生成的JAR包上传到平台后,通过节点调用所上传的资源来运行此MapReduce程序。

函数(Function)

MaxCompute提供了Java的编程接口来开发用户自定义函数。在大数据平台数据开发套件中指出Java UDF。
说明:资源与函数都是MaxCompute的概念,在DataWorks中,可以通过界面管理资源、函数。如果通过MaxCompute的其他方式进行资源、函数管理,则无法在DataWorks中进行相关的查询。

DataWorks功能框架

DataWorks是底层基于MaxCompute(原ODPS)的集成开发环境,包括数据开发、数据管理、数据分析、数据挖掘和管理控制台。其中数据分析和数据挖掘属于阿里云大数据开发平台高级组件。

大数据开发平台功能模块

组织管理

管理dataworks的项目空间。
管理dataworks的调度资源。
管理组织成员、权限、角色等

项目管理

配置项目属性,包括基本属性、数据源、计算引擎以及流程控制。
管理项目成员

数据开发

开发任务、脚本、配置调度
管理资源、函数等。

数据管理

找数据、权限管理
数据表管理

运维中心

任务管理,包括查看、编辑、运行
任务的运维和监控,包括运行日志、调度和恢复以及监控报警

DataWorks角色隔离

组织管理员

指组织的管理者,可新建计算引擎、新建项目空间、新建调度资源、添加组织成员、为组织成员赋予项目管理员角色、配置数据类目等。即阿里云云账号的角色,此角色不能赋予其他账号。

项目管理员

指项目空间的管理者,可对该项目空间的基本属性、数据源、当前项目空间计算引擎配置和项目成员等进行管理,并为项目成员赋予项目管理员、开发、运维、部署、访客角色。对应maxcompute的数据权限为project/table/fuction/resource/instance/job/volume/offlinemodel/package的所有权限,对应maxcompute的role_project_admin角色

开发

开发角色的用户能够创建工作流、脚本文件、资源和UDF,新建/删除表,同时可以创建发布包,但不能执行发布操作。maxcompute的数据权限为project/fuction/resource/instance/job/volume/offlinemodel/package/table的所有权限,对应maxcompute的role_project_dev角色

运维

运维角色的用户由项目管理员分配运维权限;拥有发布及线上运维的操作权限,没有数据开发的操作权限。maxcompute的数据权限为project/fuction/resource/instance/job/offlinemodel的所有权限,拥有volume/package的read权限和table的read/describe权限。maxcompute角色为role_project_pe.

部署

部署角色与运维角色相似,但是它没有线上运维的操作权限。默认无maxcompute的数据权限,对应maxcompute的role_project_deploy角色

访客

访客角色的用户只具备查看权限,没有权限进行编辑工作流和代码等操作。默认无maxcompute数据权限,maxcompute的角色为role_project_guest.

安全员

安全管理员仅在数据保护伞中用到,用于敏感规则配置,数据风险审计等。默认无maxcompute数据权限,maxcompute的角色role_project_security.

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
目录
相关文章
|
2月前
|
SQL 分布式计算 DataWorks
通过DataWorks使用PyODPS
PyODPS为MaxCompute的Python版SDK,支持在DataWorks中开发运行PyODPS任务。本文为您介绍在DataWorks上使用PyODPS的使用限制、主要流程和部分简单应用示例
82 2
|
3月前
|
分布式计算 DataWorks MaxCompute
dataworks任务报错是什么原因?
【1月更文挑战第20天】【1月更文挑战第97篇】dataworks任务报错是什么原因?
24 1
|
1月前
|
分布式计算 DataWorks 安全
dataworks这个报错什么意思?
【2月更文挑战第13天】dataworks这个报错什么意思?odps-0433121: User is not added in the list - Only users in the operator account white list have permission to do that. MaxCompute
15 1
|
7月前
|
SQL 分布式计算 DataWorks
Dataworks数据建模
本实验通过使用DataWorks、MaxCompute服务,实现数据建模,使得数据可以最终以可视化的方式呈现,让使用者能够快速地、高效地获取到数据中有价值的信息,从而做出准确有效的决策。
211 1
|
3月前
|
DataWorks 大数据 数据处理
DataWorks里面的槽位分析
DataWorks里面的槽位分析
60 0
|
3月前
|
存储 DataWorks 大数据
DataWorks小文件产生的原因
【1月更文挑战第4篇】DataWorks小文件产生的原因
133 0
|
4月前
|
SQL DataWorks 调度
dataworks
dataworks
27 1
|
5月前
|
DataWorks 安全 关系型数据库
DataWorks报错
DataWorks这个错误可以帮忙看看, 集成实例已经绑定到同一个vpc下面, RDS的IP白名单也添加了? {"commonInfo":{"regionCode":"cn-shanghai","projectId":376664,"projectName":"allbirds_crm","datasourceType":"drds","datasourceName":"shuyun_datahub","resourceGroup":"S_res_group_325775695147777_1698821753600","resourceGroupName":"DIResGroup_20231
18 1
|
9月前
|
SQL 数据采集 DataWorks
DataWorks
DataWorks是阿里云提供的一款大数据开发平台,可以帮助用户进行数据的ETL、数据分析和数据可视化等操作。DataWorks提供了一系列的工具和服务,包括数据集成、数据开发、数据建模、数据质量、数据分析和数据可视化等,可以帮助用户快速搭建数据开发和数据分析环境,提高数据的处理效率和质量。
414 0
|
消息中间件 弹性计算 运维
DataWorks的数据集成功能
DataWorks的数据集成功能
361 0