1.5分钟 DataWorks 产品入门|学习笔记

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
数据安全中心,免费版
简介: 快速学习1.5分钟 DataWorks 产品入门

开发者学堂课程【DataWorks 一站式大数据开发治理平台精品课程:1.5分钟 DataWorks 产品入门】与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/81/detail/1222


1.5分钟 DataWorks 产品入门

内容介绍:

一、DataWorks 站式大数据开发治理平台

二、DataWorks 飞天大数据平台操作系统

三、DataWorks 产品架构

四、DataWorks 合规认证及荣誉奖项

五、DataWorks 数据集成-数据上下云的枢纽

六、DataWorks 全链路数据开发平台

七、DataWorks 离线数据开发-Data Studio

八、DataWorks 数据治理平台核心要素

九、DataWorks  产品核心价值

十、DataWorks 付费模式

一、DataWorks一站式大数据开发治理平台

1DataWorks 基于 MaxCompute/EMR/ MC-Hologres 等大数据计算引擎为客户提供专业高效、安全可靠的一站式大数据开发与治理平台,自带阿里巴巴数据中台与数据治理最佳实践赋能各行业数字化转型。

2、阿里巴巴十年数据中台与数据治理最佳实践

image.png

从2009年开始 MaxCompute 产品体系一直支撑着集团内部数据中台的建设,现在集团几乎所有的数据都存储在 MaxCompute,每天也会有数万名运营小二,数据工程师,数据开发工程师,算法使用 DataWorks

2020年双11, MaxCompute日处理数据超过1.7EB, DataWorks 调度数超过千万

(1)2009

进入空气稀薄地带开源?自研?飞天的第一行代码阿里云技术之路的起点

(2)2015

登月计划突破调度5000台服务器投10年,投10个亿中国第一家拥有完整的云计算能力的企业,一飞冲天

(3)2016

全球化飞天云操作系统获得中国电子学会16年来颁发的唯一科技迸步奖特等奖

(4)2017

商业化阿里云大数据品牌“数加”20+款大数据产品MaxCompute+DataWorks 普惠大数据

(5)2018

驱动数字中国 MaxCompute 再次打破排序世界纪录 DataWorks 站式智能云研发平台飞天X城市大脑2.0

(6)2019

飞天大数据平台中国唯一自研计算引擎规模最大、数据处理能力最强数据综合治理体系AI加持的飞天大数据平台


二、DataWorks 飞天大数据平台操作系统

8大核心引擎+1个操作系统

DataWorks 作为操作系统对接不同的引擎,客户可以根据不同的需求,选择对应的引擎,不管是阿里大数据计算 MaxCompute、开元大数据计算 E-MapReduce、实时RealtimeCompute、图计算 GraphCompute、交互式分析 MC-Hologres、智能搜索AlRec、自研分布式搜索 OpenSearch、开源搜索Elasticsearch都可以通过DataWorks完成大数据开发和一站式治理。

1DataWorks 站式大数据开发治理平台

全域数据集成跨引擎智能云上开发大数据综合治理

2阿里大数据计算引擎

BigBench评测全球第一规模最大,可扩展到10万台

3开源大数据计算引擎

打破多项世界纪录全球首个通过TPC公认证的公共云产品

4、实时大数据计算引肇

Apache Flink团队官方出品首批通过流计算产品能力测评产品

5图计算引擎

应用集团内50多个业务场景支持百亿点、千亿边规模的超大图存储

6、交互式分析引擎

PB级数据亚秒级查询与实时计算引擎构建实时数仓

7、智能推荐引擎

领先的算法及模型能力阿里巴巴智能推荐技术输出自研分布式搜索引”QPS峰值近百万阿里巴巴搜索服务技术输出

8、开源搜索引擎

降低成本并大幅提升原生性能100%兼容开源Elasticsearch


三、DataWorks 产品架构

image.png在数据集成支持批量,增量,实时的数据同步,通过统一任务调度服务和统一元数据服务进行核心支撑数据开发和治理,在数据开发层面对于不同的引擎,有不同的XStudio,有离线开发,实时开发,交互式分析,数据开发完成后,会有数据治理各个模块提供数据治理的相关功能,数据开发治理完成后,有数据服务进行更好的共享,最后有一个 OpenAPI 的开放平台。如果有一些定制化,批量的需求,都可以通过 OpenAPI 进行实现。


四、DataWorks 合规认证及荣誉奖项

image.png


五、DataWorks 数据集成-数据上下云的枢纽

提供复杂网络环境下、丰富的异构数据源和端之间、具备长链路数据加速,支持同步异步数据传输转换的数据传输桥梁

支持非常多数据源的抽取和导出,支持离线同步,实时同步,整库迁移做数据的上下云。

1、关系型数据库

SQL Server PostegreSQL达梦DRDSMySQLOracleRDS for PPASDB2

2MPP

AnalyticDB for MysqlAnalyticDB for PostgreSQL

3、大数据存储

MaxCompute HDFS HIVE

4、非结构化存储

OSSFTP多媒体文件

5、NoSql

HBaseOTSMongoDB


六、DataWorks 全链路数据开发平台

image.png

针对不同的引擎有不同的 StudioStudio 中有非常多好用的功能帮助完成全链路数据开发,通过数据服务对接大屏或者AI报表系统。


七、DataWorks 离线数据开发-Data Studio

在数据开发中,核心是离线数据开发,Data Studio 支持阿里 MaxCompute 和 E-MapReduce 两种大数据引擎的离线数仓开发,

可构建复杂的业务流程和调度依赖,提供开发、生产环境隔离的研发模式

1、业务流程混合编排

可视化拖拽式多引擎任务混合编排

2、智能SQL编辑器

Al加持的SQL编辑器,智能提示,SQL算子结构可视化展示

3、全面的引擎能力封装

支持计算引擎的任务、表、资源、函数管理,让您无需接触复杂的引擎命令行

4、自定义节点

提供自定义节点插件化机制,支持您扩展计算任务类型,自主接入自定义计算服务


八、DataWorks 数据治理平台核心要素

image.png

数据发现基础元数据的规则定义、自动采集、批量获取、增量更新支持资产类目、组织架构、标签等衍生属性自定义

数据探查:键洞察相关统计量及分布情况。

数据资产地图:全局资产搜索、类目检索、资产详情检视集中展示元数据分析、数据探查、数据质量、数据安全、智能监控、资源优化概况。

元数据解析:智能解析数据血缘、数据热度、数据产出等复杂元数据。

数据安全敏感数据智能识别及脱敏,风险预警与审计。

数据质量异构存储数据质量自动检测与校验。

智能监控海量计算任务智能监控与业务基线预警。

资源优化存储/计算资源优化、诊断与分析。

把数据治理的方法沉淀成产品功能,企业可以在里面,通过数据资产地图看到各种各样的数据资产信息,同时也可以通过数据安全,数据质量,智能监控,资源优化等各个模块帮助企业完成 dataworks 的数据治理。


九、DataWorks 产品核心价值

image.png

1、功能健全

站式全域数据平台性能卓越覆盖数据研发全生命周期;日PB级数据同步;日千万级任务调度

2、便捷易用

云上全图形化操作界面图形代码互转1小时上手大数据全流程研发;阿里数千名运营小二都在用

3、降本提效

云原生、全托管开箱即用相比自研或使用开源工具,有效降低平台研发和运维成本,让您专注于业务本身,购买开通即可。

4、安全稳定

租户隔离,细粒度权限控制金融级数据安全保障;通过“双11"稳定性考验


十、DataWorks 付费模式

DataWorks 收费模式由产品版本+付费资源组成。基于不同版本有不同的功能,推荐性价比最高的是专业版。正常使用按量付费是没有问题的

1、默认开通的是基础版(产品版本) +按量付费(付费资源)

2、增值版本分为基础版、标准版、专业版、企业版、旗舰版,专业版首月199元

3付费资源分为按量付费与独享资源(独享调度资源与独享数据集成资源)独享资源首月5折定时产出报表,定时大量数据同步,实时同步等场景建议购买独享资源组,因为按量资源组在高峰期时是没有办法保证这些任务的准时调度,有一些表的产出可能会延期。

4按量付费提供的是默认资源组,高峰期可能无法保证所有任务准时调度运行

image.png

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
18小时前
|
数据采集 人工智能 DataWorks
DataWorks产品最佳实践测评
DataWorks产品最佳实践测评
|
13天前
|
SQL DataWorks 搜索推荐
DataWorks产品评测与最佳实践体验报告
DataWorks是阿里巴巴云推出的一款高效数据处理平台,通过内置的数据集成工具和ETL功能,实现了多源数据的自动化处理与分析。本文介绍了DataWorks在用户画像分析中的应用实践,展示了其如何帮助企业高效管理数据资源,支持决策制定及营销优化。同时,文章还评测了DataWorks的产品体验,包括开通流程、功能满足度等方面,并与其它数据开发平台进行了比较,突出了DataWorks在易用性、性能和生态完整性上的优势。最后,对Data Studio新版本中的Notebook环境进行了初步探索,强调了其在提升开发效率方面的价值。
50 16
|
7天前
|
SQL 分布式计算 DataWorks
DataWorks产品测评|基于DataWorks和MaxCompute产品组合实现用户画像分析
本文介绍了如何使用DataWorks和MaxCompute产品组合实现用户画像分析。首先,通过阿里云官网开通DataWorks服务并创建资源组,接着创建MaxCompute项目和数据源。随后,利用DataWorks的数据集成和数据开发模块,将业务数据同步至MaxCompute,并通过ODPS SQL完成用户画像的数据加工,最终将结果写入`ads_user_info_1d`表。文章详细记录了每一步的操作过程,包括任务开发、运行、运维操作和资源释放,帮助读者顺利完成用户画像分析。此外,还指出了文档中的一些不一致之处,并提供了相应的解决方法。
|
16天前
|
机器学习/深度学习 数据采集 DataWorks
DataWorks产品评测:数据处理与分析的最佳实践
DataWorks是阿里巴巴推出的大数据开发治理平台,支持从数据采集、预处理、存储到分析的全流程操作。本文评测了其在用户画像分析中的应用,包括数据收集、清洗、特征工程、模型训练、结果评估及应用部署等步骤,展示了其在提高数据资产管理效率、支持多种编程语言和技术栈、集成丰富可视化工具等方面的优势。同时,文章也指出了DataWorks在使用过程中的一些不便与问题,并提出了改进建议。
54 17
|
8天前
|
DataWorks 数据可视化 大数据
DataWorks 产品综合评测报告
《DataWorks产品综合评测报告》全面评估了DataWorks这款知名的大数据开发治理平台。报告从用户画像分析实践、日常工作中的应用、产品体验、与其他工具的对比及Data Studio公测体验等多个角度进行了详细评测。DataWorks在数据集成、可视化操作、任务调度等方面表现出色,但也存在一些技术难题和使用门槛。总体而言,DataWorks功能完整、易用性强,适合企业高效处理和分析大数据,助力决策制定和业务优化。
|
13天前
|
分布式计算 DataWorks 大数据
DataWorks产品体验评测报告
DataWorks产品体验评测报告
40 8
|
8天前
|
DataWorks 数据可视化 搜索推荐
DataWorks产品深度评测:优势与展望
在数字化时代,数据成为企业决策和创新的关键驱动力。DataWorks作为一款大数据开发治理平台,展现了强大的功能和潜力。本文从用户画像分析实践、实际工作中的作用、产品体验评测、与其他工具对比等多个维度,全面评测了DataWorks,旨在为潜在用户提供深入且实用的参考。评测内容涵盖任务开发便捷性、性能表现、价格策略、社区建设等方面,突显了DataWorks的优势和改进空间。
|
9天前
|
分布式计算 DataWorks 搜索推荐
DataWorks产品最佳实践测评
DataWorks产品最佳实践测评
28 2
|
2天前
|
分布式计算 DataWorks 搜索推荐
DataWorks产品评测:大数据开发治理平台的最佳实践与体验
DataWorks是阿里云推出的一款大数据开发治理平台,集成了多种大数据引擎,支持数据集成、开发、分析和任务调度。本文通过用户画像分析的最佳实践,评测了DataWorks的功能和使用体验,并提出了优化建议。通过实践,DataWorks在数据整合、清洗及可视化方面表现出色,适合企业高效管理和分析数据。
30 0
|
9天前
|
DataWorks 搜索推荐 BI
DataWorks产品评测与最佳实践分享
DataWorks产品评测与最佳实践分享
25 0

热门文章

最新文章

  • 1
    DataWorks操作报错合集之DataWorks任务异常 报错: GET_GROUP_SLOT_EXCEPTION 该怎么处理
    118
  • 2
    DataWorks操作报错合集之DataWorksUDF 报错:evaluate for user defined function xxx cannot be loaded from any resources,该怎么处理
    114
  • 3
    DataWorks操作报错合集之在DataWorks中,任务流在调度时间到达时停止运行,是什么原因导致的
    113
  • 4
    DataWorks操作报错合集之DataWorks ODPS数据同步后,timesramp遇到时区问题,解决方法是什么
    100
  • 5
    DataWorks操作报错合集之DataWorks配置参数在开发环境进行调度,参数解析不出来,收到了 "Table does not exist" 的错误,该怎么处理
    104
  • 6
    DataWorks操作报错合集之DataWorks中udf开发完后,本地和在MaxCompute的工作区可以执行函数查询,但是在datawork里报错FAILED: ODPS-0130071:[2,5],是什么原因
    117
  • 7
    DataWorks操作报错合集之DataWorks提交失败: 提交节点的源码内容到TSP(代码库)失败:"skynet_packageid is null,该怎么解决
    123
  • 8
    DataWorks操作报错合集之DataWorks在同步mysql时报错Code:[Framework-02],mysql里面有个json类型字段,是什么原因导致的
    159
  • 9
    DataWorks操作报错合集之DataWorks集成实例绑定到同一个vpc下面,也添加了RDS的IP白名单报错:数据源配置有误,请检查,该怎么处理
    91
  • 10
    DataWorks操作报错合集之在 DataWorks 中运行了一个 Hologres 表的任务并完成了执行,但是在 Hologres 表中没有看到数据,该怎么解决
    132
  • 下一篇
    DataWorks