1.5分钟 DataWorks 产品入门|学习笔记

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
数据安全中心,免费版
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
简介: 快速学习1.5分钟 DataWorks 产品入门

开发者学堂课程【DataWorks 一站式大数据开发治理平台精品课程:1.5分钟 DataWorks 产品入门】与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/81/detail/1222


1.5分钟 DataWorks 产品入门

内容介绍:

一、DataWorks 站式大数据开发治理平台

二、DataWorks 飞天大数据平台操作系统

三、DataWorks 产品架构

四、DataWorks 合规认证及荣誉奖项

五、DataWorks 数据集成-数据上下云的枢纽

六、DataWorks 全链路数据开发平台

七、DataWorks 离线数据开发-Data Studio

八、DataWorks 数据治理平台核心要素

九、DataWorks  产品核心价值

十、DataWorks 付费模式

一、DataWorks一站式大数据开发治理平台

1DataWorks 基于 MaxCompute/EMR/ MC-Hologres 等大数据计算引擎为客户提供专业高效、安全可靠的一站式大数据开发与治理平台,自带阿里巴巴数据中台与数据治理最佳实践赋能各行业数字化转型。

2、阿里巴巴十年数据中台与数据治理最佳实践

image.png

从2009年开始 MaxCompute 产品体系一直支撑着集团内部数据中台的建设,现在集团几乎所有的数据都存储在 MaxCompute,每天也会有数万名运营小二,数据工程师,数据开发工程师,算法使用 DataWorks

2020年双11, MaxCompute日处理数据超过1.7EB, DataWorks 调度数超过千万

(1)2009

进入空气稀薄地带开源?自研?飞天的第一行代码阿里云技术之路的起点

(2)2015

登月计划突破调度5000台服务器投10年,投10个亿中国第一家拥有完整的云计算能力的企业,一飞冲天

(3)2016

全球化飞天云操作系统获得中国电子学会16年来颁发的唯一科技迸步奖特等奖

(4)2017

商业化阿里云大数据品牌“数加”20+款大数据产品MaxCompute+DataWorks 普惠大数据

(5)2018

驱动数字中国 MaxCompute 再次打破排序世界纪录 DataWorks 站式智能云研发平台飞天X城市大脑2.0

(6)2019

飞天大数据平台中国唯一自研计算引擎规模最大、数据处理能力最强数据综合治理体系AI加持的飞天大数据平台


二、DataWorks 飞天大数据平台操作系统

8大核心引擎+1个操作系统

DataWorks 作为操作系统对接不同的引擎,客户可以根据不同的需求,选择对应的引擎,不管是阿里大数据计算 MaxCompute、开元大数据计算 E-MapReduce、实时RealtimeCompute、图计算 GraphCompute、交互式分析 MC-Hologres、智能搜索AlRec、自研分布式搜索 OpenSearch、开源搜索Elasticsearch都可以通过DataWorks完成大数据开发和一站式治理。

1DataWorks 站式大数据开发治理平台

全域数据集成跨引擎智能云上开发大数据综合治理

2阿里大数据计算引擎

BigBench评测全球第一规模最大,可扩展到10万台

3开源大数据计算引擎

打破多项世界纪录全球首个通过TPC公认证的公共云产品

4、实时大数据计算引肇

Apache Flink团队官方出品首批通过流计算产品能力测评产品

5图计算引擎

应用集团内50多个业务场景支持百亿点、千亿边规模的超大图存储

6、交互式分析引擎

PB级数据亚秒级查询与实时计算引擎构建实时数仓

7、智能推荐引擎

领先的算法及模型能力阿里巴巴智能推荐技术输出自研分布式搜索引”QPS峰值近百万阿里巴巴搜索服务技术输出

8、开源搜索引擎

降低成本并大幅提升原生性能100%兼容开源Elasticsearch


三、DataWorks 产品架构

image.png在数据集成支持批量,增量,实时的数据同步,通过统一任务调度服务和统一元数据服务进行核心支撑数据开发和治理,在数据开发层面对于不同的引擎,有不同的XStudio,有离线开发,实时开发,交互式分析,数据开发完成后,会有数据治理各个模块提供数据治理的相关功能,数据开发治理完成后,有数据服务进行更好的共享,最后有一个 OpenAPI 的开放平台。如果有一些定制化,批量的需求,都可以通过 OpenAPI 进行实现。


四、DataWorks 合规认证及荣誉奖项

image.png


五、DataWorks 数据集成-数据上下云的枢纽

提供复杂网络环境下、丰富的异构数据源和端之间、具备长链路数据加速,支持同步异步数据传输转换的数据传输桥梁

支持非常多数据源的抽取和导出,支持离线同步,实时同步,整库迁移做数据的上下云。

1、关系型数据库

SQL Server PostegreSQL达梦DRDSMySQLOracleRDS for PPASDB2

2MPP

AnalyticDB for MysqlAnalyticDB for PostgreSQL

3、大数据存储

MaxCompute HDFS HIVE

4、非结构化存储

OSSFTP多媒体文件

5、NoSql

HBaseOTSMongoDB


六、DataWorks 全链路数据开发平台

image.png

针对不同的引擎有不同的 StudioStudio 中有非常多好用的功能帮助完成全链路数据开发,通过数据服务对接大屏或者AI报表系统。


七、DataWorks 离线数据开发-Data Studio

在数据开发中,核心是离线数据开发,Data Studio 支持阿里 MaxCompute 和 E-MapReduce 两种大数据引擎的离线数仓开发,

可构建复杂的业务流程和调度依赖,提供开发、生产环境隔离的研发模式

1、业务流程混合编排

可视化拖拽式多引擎任务混合编排

2、智能SQL编辑器

Al加持的SQL编辑器,智能提示,SQL算子结构可视化展示

3、全面的引擎能力封装

支持计算引擎的任务、表、资源、函数管理,让您无需接触复杂的引擎命令行

4、自定义节点

提供自定义节点插件化机制,支持您扩展计算任务类型,自主接入自定义计算服务


八、DataWorks 数据治理平台核心要素

image.png

数据发现基础元数据的规则定义、自动采集、批量获取、增量更新支持资产类目、组织架构、标签等衍生属性自定义

数据探查:键洞察相关统计量及分布情况。

数据资产地图:全局资产搜索、类目检索、资产详情检视集中展示元数据分析、数据探查、数据质量、数据安全、智能监控、资源优化概况。

元数据解析:智能解析数据血缘、数据热度、数据产出等复杂元数据。

数据安全敏感数据智能识别及脱敏,风险预警与审计。

数据质量异构存储数据质量自动检测与校验。

智能监控海量计算任务智能监控与业务基线预警。

资源优化存储/计算资源优化、诊断与分析。

把数据治理的方法沉淀成产品功能,企业可以在里面,通过数据资产地图看到各种各样的数据资产信息,同时也可以通过数据安全,数据质量,智能监控,资源优化等各个模块帮助企业完成 dataworks 的数据治理。


九、DataWorks 产品核心价值

image.png

1、功能健全

站式全域数据平台性能卓越覆盖数据研发全生命周期;日PB级数据同步;日千万级任务调度

2、便捷易用

云上全图形化操作界面图形代码互转1小时上手大数据全流程研发;阿里数千名运营小二都在用

3、降本提效

云原生、全托管开箱即用相比自研或使用开源工具,有效降低平台研发和运维成本,让您专注于业务本身,购买开通即可。

4、安全稳定

租户隔离,细粒度权限控制金融级数据安全保障;通过“双11"稳定性考验


十、DataWorks 付费模式

DataWorks 收费模式由产品版本+付费资源组成。基于不同版本有不同的功能,推荐性价比最高的是专业版。正常使用按量付费是没有问题的

1、默认开通的是基础版(产品版本) +按量付费(付费资源)

2、增值版本分为基础版、标准版、专业版、企业版、旗舰版,专业版首月199元

3付费资源分为按量付费与独享资源(独享调度资源与独享数据集成资源)独享资源首月5折定时产出报表,定时大量数据同步,实时同步等场景建议购买独享资源组,因为按量资源组在高峰期时是没有办法保证这些任务的准时调度,有一些表的产出可能会延期。

4按量付费提供的是默认资源组,高峰期可能无法保证所有任务准时调度运行

image.png

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
3月前
|
DataWorks Kubernetes 大数据
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
|
3月前
|
SQL DataWorks 安全
DataWorks产品使用合集之如何实现分钟级调度
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3月前
|
运维 DataWorks 监控
DataWorks产品使用合集之如何自定义UDTF
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3月前
|
分布式计算 DataWorks API
DataWorks产品使用合集之如何设置把结果传入变量
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3月前
|
DataWorks 安全 定位技术
DataWorks产品使用合集之怎么指定任务的执行时间
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3月前
|
DataWorks 监控 Java
DataWorks产品使用合集之怎么查看并发数和jvm对应值
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3月前
|
存储 分布式计算 DataWorks
DataWorks产品使用合集之如何引用第三方库
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3月前
|
分布式计算 运维 DataWorks
DataWorks产品使用合集之如何实现任务的批量导入和导出
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3月前
|
SQL DataWorks 安全
DataWorks产品使用合集之怎么跨项目移动sql任务
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3月前
|
数据采集 JSON DataWorks
DataWorks产品使用合集之支持哪些数据引擎
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。

热门文章

最新文章