DataWorks

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
大数据开发治理平台DataWorks,资源组抵扣包 750CU*H
简介: DataWorks

DataWorks介绍

DataWorks(数据工厂,原大数据库开发套件)是阿里云数加重要的PaaS平台产品,它提供全面托管的工作流服务,一站式开发管理界面,帮助企业专注于数据价值的挖掘和探索。
它是一套基于MaxCompute(原ODPS)的DW解决方案,他集成了阿里多年的DW实施经验,提供数据集成、处理、分析和管理功能,并为代码开发、调试、发布、运维、监控和管理提供了一个高效、安全的离线数据开发环境。

全面托管的调度

强大的调度能力,千万级别的任务调度;
支持按照时间、依赖关系的任务触发机制;
支持每日任务按照DAG关系准确、准时运行;
支持分钟、小时、天、周和月多种调度周期配置;
完全托管的服务,无需关心调度服务器资源问题;
租户之间提供隔离,保证不同租户之间的任务不会互相影响。

支持多种任务类型

支持数据同步、SHELL、MaxCompute SQL、MaxCompute MR等多种任务类型,通过任务之间的相互依赖完成复杂的数据分析处理。

可视化开发

提供可视化的代码开发、工作流设计器页面,无需搭配任何开发工具,简单的拖拽和开发就可以完成复杂的数据分析任务。
只要有浏览器、有网络,便可随时随地进行开发工作。

监控告警

运维中心提供可视化的任务监控管理工具,支持以DAG图的形式展示任务运行时的全局情况;
可方便地配置短信、邮件报警,任务发生错误可及时通知相关人员,保证业务正常运行。

DataWorks产品特点

基于MaxCompute:一套基于Max Compute(原ODPS)的数据开发、数据管理工具。
清晰可见的血缘:基于统一的元数据服务提供数据资源管理视图、可视化的数据血缘分析、清晰展现数据表的输入与输出,方便追溯其处理过程。
一站式数据开发:提供数据同步、数据加工、一键发布、调度引擎等一站式大数据开发服务。
可视化开发界面:面向数据开发者、数据运维人员,项目管理者提供了可视化的开发界面。

产品优势

1、专业
解决数据同步、开发与运维问题。全面提升大数据加工的效率,降低成本。
2、易用
屏蔽云端复杂性,轻松完成云端数据同步。灵活撰写数据处理代码,极简任务管理。
3、大数据处理能力
与MaxCompute(原ODPS)完美融合,释放其处理能力。实现数据价值的深度挖掘与业务的数据化运营。

DataWorks基本概念

组织与项目空间

组织

组织是大数据平台特有概念,一个公司开通大数据平台服务就创建一个组织,一个组织内创建多个项目空间。组织之间互相隔离,一个账号只能所属一个组织。元数据按组织隔离,只能查看本组织下的表元数据。

项目空间(project)

项目空间时数据开发中最基本的组织对象,类似于传统数据库的database。数据开发的项目空间,是进行多组织隔离和访问控制的主要边界,也是用户管理表(table)、资源(resource)、自定义函数(UDF)、作业(job)、节点(node)、工作流(workflow)、权限等的基本单元。

任务(task)

任务是指定义对数据执行的操作。每个任务使用0或0个以上的数据表(数据集)作为输入,生成一个或多个数据表(数据集)作为输出。
如:
使用数据同步节点任务,将数据从RDS复制到MaxCompute。
使用MaxCompute SQL节点任务运行MaxCompute SQL来进行数据的转换。
使用工作流任务,通过内部几个不同的SQL内部节点完成一系列的数据转换。

工作流(WorkFlow)

工作流是一个DAG图(有向无环图),其描述了作业中多个节点之间的逻辑(依赖关系)和规则(运行越是)。

节点(Node)

节点属于工作流的字对象,也称为任务,是数据开发数据处理和分析过程的最基本单元,每个任务对应DAG图中的一个节点,其可以是一个SQL Query、命令和MapReduce程序。

依赖关系(Dependency)

依赖关系是描述两个或多个节点/工作流之间的语义连接关系,其中上游节点/工作流的运行状态可以影响下游节点/工作流的运行状态,反正则不成立。

实例(Instance)

在调度系统中的任务经过调度系统、手动触发运行后会生成一个实例,实例代表了某个任务在某时某刻执行的一个快照,实例中会有任务的运行时间、运行状态、运行日志等信息。

资源(Resource)

资源是数据开发的特有概念,用户可以上传本地自定义的JAR或文件作为资源,在节点运行时调用,如,在数据开发中运行MapReduce程序,需要将MapReduce生成的JAR包上传到平台后,通过节点调用所上传的资源来运行此MapReduce程序。

函数(Function)

MaxCompute提供了Java的编程接口来开发用户自定义函数。在大数据平台数据开发套件中指出Java UDF。
说明:资源与函数都是MaxCompute的概念,在DataWorks中,可以通过界面管理资源、函数。如果通过MaxCompute的其他方式进行资源、函数管理,则无法在DataWorks中进行相关的查询。

DataWorks功能框架

DataWorks是底层基于MaxCompute(原ODPS)的集成开发环境,包括数据开发、数据管理、数据分析、数据挖掘和管理控制台。其中数据分析和数据挖掘属于阿里云大数据开发平台高级组件。

大数据开发平台功能模块

组织管理

管理dataworks的项目空间。
管理dataworks的调度资源。
管理组织成员、权限、角色等

项目管理

配置项目属性,包括基本属性、数据源、计算引擎以及流程控制。
管理项目成员

数据开发

开发任务、脚本、配置调度
管理资源、函数等。

数据管理

找数据、权限管理
数据表管理

运维中心

任务管理,包括查看、编辑、运行
任务的运维和监控,包括运行日志、调度和恢复以及监控报警

DataWorks角色隔离

组织管理员

指组织的管理者,可新建计算引擎、新建项目空间、新建调度资源、添加组织成员、为组织成员赋予项目管理员角色、配置数据类目等。即阿里云云账号的角色,此角色不能赋予其他账号。

项目管理员

指项目空间的管理者,可对该项目空间的基本属性、数据源、当前项目空间计算引擎配置和项目成员等进行管理,并为项目成员赋予项目管理员、开发、运维、部署、访客角色。对应maxcompute的数据权限为project/table/fuction/resource/instance/job/volume/offlinemodel/package的所有权限,对应maxcompute的role_project_admin角色

开发

开发角色的用户能够创建工作流、脚本文件、资源和UDF,新建/删除表,同时可以创建发布包,但不能执行发布操作。maxcompute的数据权限为project/fuction/resource/instance/job/volume/offlinemodel/package/table的所有权限,对应maxcompute的role_project_dev角色

运维

运维角色的用户由项目管理员分配运维权限;拥有发布及线上运维的操作权限,没有数据开发的操作权限。maxcompute的数据权限为project/fuction/resource/instance/job/offlinemodel的所有权限,拥有volume/package的read权限和table的read/describe权限。maxcompute角色为role_project_pe.

部署

部署角色与运维角色相似,但是它没有线上运维的操作权限。默认无maxcompute的数据权限,对应maxcompute的role_project_deploy角色

访客

访客角色的用户只具备查看权限,没有权限进行编辑工作流和代码等操作。默认无maxcompute数据权限,maxcompute的角色为role_project_guest.

安全员

安全管理员仅在数据保护伞中用到,用于敏感规则配置,数据风险审计等。默认无maxcompute数据权限,maxcompute的角色role_project_security.

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
目录
相关文章
|
12月前
|
消息中间件 监控 前端开发
什么时候会使用WebSockets?如何使用Spring Boot实现?
什么时候会使用WebSockets?如何使用Spring Boot实现?
510 6
|
缓存 JSON 安全
深入了解 Elasticsearch:10个常见面试问题及详细答案
Elasticsearch 是一个强大的搜索和分析引擎,广泛应用于处理大型数据集和构建实时搜索应用程序。在准备 Elasticsearch 面试时,掌握一些常见问题的答案至关重要。本文将为你提供10个常见的 Elasticsearch 面试问题,并详细解答每个问题。
|
机器学习/深度学习 人工智能 自然语言处理
【AI系统】AI在不同领域的应用与行业影响
本文探讨了人工智能在计算机视觉、自然语言处理及音频处理等领域的广泛应用,并展示了其在自动驾驶、安全监控、搜索引擎优化、客户服务、语音识别及多个行业的革新作用,强调了AI基础设施与系统创新对未来社会的影响与价值。
1328 1
|
搜索推荐 机器人 云计算
纳米机器人:医疗领域的微型革命与精准治疗
【9月更文挑战第16天】随着科技的飞速发展,纳米技术成为推动多个领域变革的重要力量。在医疗领域,纳米机器人以其独特优势引领着微型革命与精准治疗新时代。本文探讨其在药物输送、癌症治疗、手术辅助及疾病诊断中的应用,并分析其小型化、精准化、智能化与综合化的优势。尽管面临制造技术、体内控制等挑战,但随着科技的进步,纳米机器人有望成为人类健康的重要保障。
898 10
|
SQL 存储 分布式计算
MaxCompute 入门:大数据处理的第一步
【8月更文第31天】在当今数字化转型的时代,企业和组织每天都在产生大量的数据。有效地管理和分析这些数据变得至关重要。阿里云的 MaxCompute(原名 ODPS)是一个用于处理海量数据的大规模分布式计算服务。它提供了强大的存储能力以及丰富的数据处理功能,让开发者能够快速构建数据仓库、实时报表系统、数据挖掘等应用。本文将介绍 MaxCompute 的基本概念、架构,并演示如何开始使用这一大数据处理平台。
1873 0
|
算法 NoSQL 分布式数据库
深入浅出分布式系统的数据一致性
在探索后端技术的海洋时,数据一致性如同北极星,指引着我们的航向。本文将带你领略分布式系统的奥秘,从浅显易懂的角度出发,逐步深入到数据一致性的核心概念、实现策略及其在真实世界中的应用。我们将一起探讨如何在这个多变的世界中保持数据的和谐与统一,确保每一次数据的读写都能如行云流水般自然和顺畅。
|
监控 NoSQL JavaScript
《Redis服务监控神器:用RedisLive轻松掌控实时数据》
【8月更文挑战第13天】确保Redis稳定运行可通过监控工具RedisLive实现,它实时监控服务状态以便及时处理问题。RedisLive是款开源工具,具备易用、实时与可视化特性,透过Web界面展示内存使用及命令统计等关键指标。使用前需确认已安装Redis、Node.js环境,并配置MongoDB用于数据持久化。安装步骤包括克隆项目、安装依赖、配置连接信息,最后启动应用并通过浏览器访问监控页面。
502 0
|
机器学习/深度学习 数据可视化 TensorFlow
探索机器学习模型的可视化:从理论到实践
【7月更文挑战第31天】本文将深入探讨如何通过可视化技术来理解和解释复杂的机器学习模型。我们将介绍多种可视化工具和方法,并通过实际代码示例展示如何应用这些技术来揭示模型的内部工作原理。文章旨在为读者提供一种直观的方式来理解、调试和优化他们的机器学习模型。
306 0
|
机器学习/深度学习 人工智能 运维
【机器学习】Adaboost: 强化弱学习器的自适应提升方法
在机器学习领域,集成学习是一种通过结合多个弱模型以构建更强大预测模型的技术。Adaptive Boosting,简称Adaboost,是集成学习中的一种经典算法,由Yoav Freund和Robert Schapire于1996年提出。Adaboost通过迭代方式,自适应地调整数据样本的权重,使得每个后续的弱学习器更加关注前序学习器表现不佳的样本,以此逐步提高整体预测性能。本文将深入探讨Adaboost的工作原理、算法流程、关键特性、优势及应用场景,并简要介绍其实现步骤。
670 1
|
数据采集 数据挖掘 数据处理
Pandas在Python面试中的应用与实战演练
【4月更文挑战第16天】本文介绍了Python数据分析库Pandas在面试中的常见问题和易错点,包括DataFrame和Series的创建、数据读写、清洗预处理、查询过滤、聚合分组、数据合并与连接。强调了数据类型检查、索引理解、避免过度使用循环、内存管理和正确区分合并与连接操作的重要性。通过掌握这些知识和代码示例,可提升面试者在Pandas方面的专业能力。
660 3