5.DataWorks 产品定价与选型|学习笔记

本文涉及的产品
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
数据安全中心,免费版
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 快速学习5.DataWorks 产品定价与选型

开发者学堂课程【DataWorks一站式大数据开发治理平台精品课程:5.DataWorks 产品定价与选型】与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/81/detail/1226


5.DataWorks 产品定价与选型

内容介绍:

一、DataWorks 付费模式

二、DataWorks 增值版本定价与选型

三、DataWorks 专业版典型场景

四、DataWorks 企业版典型场景

五、DataWorks 资源组定价与选型

六、DataWorks 独享资源组计算器

七、DataWorks 资源组使用注意事项

一、DataWorks 付费模式

DataWorks 收费模式由产品版本+付费资源组成

1默认开通的是基础版(产品版本) +按量付费(付费资源)

2增值版本分为基础版、标准版、专业版、企业版、旗舰版专业版,不同的版本主要是功能上使用的区别和差别,推荐专业版首月199元的试用活动,它的功能和价格性价比最高的一个版本。

3付费资源分为按量付费与独享资源( 独享调度资源与独享数据集成资源)独享资源首月5折定时产出报表,定时大量数据同步,实时同步等场景建议购买独享资源组

4按量付费提供的是默认资源组,高峰期可能无法保证所有任务准时调度运行

image.png

刚才都是DataWorks本身,DataWorks作为一站式的开发治理平台搭配引擎一起使用,官网也有和引擎组合购买的链接,可以根据自己不同的需要选择不同的引擎,不管是DataWorks+MaxComputeDataWorks+EMRCDataWorks+MC- -HologresDataWorks+PAl都是支持的。


二、DataWorks 增值版本定价与选型

官网有各个版本的功能区别,目前推荐使用DataWorks专业版原价5000元/月新购首月仅需199元就可以体验。可以看到专业版比标准版多了非常多,不一样的功能


三、DataWorks 专业版典型场景

专业版典型场景,第一有资源优化的模块,能够省计算和存储的费用,就是大家随着数据量越越多,会发现很多的计算存储资源是会浪费掉的,通过资源优化的模块能够扫描到比如重复的表,重复的计算或者重复的数据同步任务,有一些计算的结果或者计算的表都是一样的,可以扫描出,按照一些大小做排序,存储的大小或者计算资源的大小做排序,帮助大家更好的去优化这些任务,对于大家一些费用的节省还是比较好的。资源优化帮您节省计算、存储费用

1、场景描述:

随着数据量的增长,难以发现造成计算、存储资源浪费的行为,导致费用增加。

2、解决方案:

“资源优化”从数据存储、计算、采集3个领域进行扫描,帮您扫

描出可以优化的表和节点,从而合理、高效地运行 DataWorks 上的

任务。如:

(1)数据倾斜SQL任务

(2)SQL暴力扫描

(3)近90天未访问的表

(4)存储量为0的表

(5)被多个任务同时写入的表(可能导致非合预期结果)

扫描领域

优化对象

可优化项

数据存储

MaxCompute 表

MaxCompute 任务

未管理的表

空表

最近90天未访问表

数据计算

优化对象

MaxCompute 表

MaxCompute 任务

冲突任务

数据倾斜

暴力扫描

数据采集

同步任务

导入为空

持续导入

同源导入

OSS同步优化

智能监控提高生产力,种优雅的告警处理方式

3、场景描述:

任务工作流节点多,每个任务监控规则多每个监控规则变化多,人肉维护就像网络工程师理网线,恨不得一刀剪干净。

4解决方案:

在DataWorks专业版里,您只需要找到“网线的两端”,任务流最终产出的任务,系统将根据历史任务的运行情况,自动为您梳理中间的任务进程,智能决策是否报警、何时报警、如何报警以及给谁报警。比如设置晚上12点产出,当配置完智能监控之后,智能监控会通过算法以及历史的一些上游的任务运行时间,进行自动的判断k点能否在预期的时间执行。比如本来是在中午12点之前完成,但是到12点发现一直没有执行完成,系统判断后后面的一些路径和流程,其他的任务,最终计算结果k点是没办法准时产出的,在中午12点就会做一个告警,可以让大家做一些提早的干预,能够保证可以k点在晚上10点时做准确的展出。提前的预估和智能的监控对于大家平常效率提高还是非常大的。

(1)使用前:

需要配置每个节点的告警规则。

(2)使用后:

仅需设置K点的最终时间

智能识别关键路径

根据每个节点历史运行时间,打通全链路智能预警

自动评估事件影响范围,自定义报警通知相应人员

字段级数据血缘快速定位脏数据源头

5、场景描述:

每日报表中,某交易数字字段产生异常值(过高/过低/空值/重

复值) ,需要寻找脏数据源头。

6、解决方案:

数据时代,数据的联姻融合、转换变换、流转流通形成了数据的血缘关系,构成虚拟的数字实体。在如此复杂的关系中,通过DataWorks数据血缘功能,能够查看到表与表,字段与字段之间的血缘关系,帮助您快速找到“病灶”,解决“病根”,消除“病痛"

image.png

日期

当日交易额

20190510

123456

20190511

0

修正后

日期

当日交易额

20190510

123456

20190511

123450

比如在图上所列举的场景原先交易额都是有数据,但有一天它出现了一个空,就可以根据的数据血缘去排查这些数据错误在哪里,比如往回追溯的table9它的数据产出也是0,table7它的数据产出

也是0,table4发现它是有数据的,并且这个数据跟日常的差别不

大,很有可能就是在table4到table7它之间出现了一些问题,就会重点去排查table4到table7这一段数据的流程是不是存在一些问题,去盯着的数据,让数据这个数据保证准时和准确的产出。

高效、稳定、安全的SQL代码复用

7场景描述:

同一SQL代码块需要给他人重复利用,传统的手动复制粘贴效

率太低且容易误操作,如何摆脱CV工程师的命运?

8、解决方案:

使用专业版中SQL代码块功能,以模块化形式进行高效、稳定、

安全的SQL代码复用!

你想要复制的内容

Ctrl c Select +from table1

Ctrl vDelete+from table1

同一代码块无需编辑,直接拖动支持变量传参、多业代码重用支持组件升级,查看新旧组件代码,自行决定组件升级需求

经常在sql时,比如会复制粘贴别人写的sql,或者之前自己经常用的一些sql代码,在复制过程中,比如一些场合要拖动旋转会比较的麻烦,经常会容易复制出错。专业版有sql代码的模块,大家以模块化的形式把之前经常用到的一些sql通过组件的形式拖进来即可,不需要选中非常长,或者每次都是快捷键进行复制,通过这种模块化的形式让这些节点使用的更加准确的高效

移动版DataWorks-被窝里轻松搞定任务运维

9、场景描述:

非工作时间或者旅途中接到任务报警电话,需要立刻处理,但是电脑不在身边怎么办?

10解决方案:

使用移动版 DataWorks手机上快速处理报警轻松搞定任务

运维:

(1)支持阿里云App/钉钉/手机浏览器登录,DataWorks 触手可及

(2)产品版本信息一目了然,高效进行版本管理

(3)报警短信直达DataWorks,被窝里轻松搞定任务运维

(4)更清晰的甘特图,横屏竖屏切换自如

(5)查看日志键到底,再也不用做没有感情的翻页机器

移动运维的功能,因为DataWorks基本上都是通过网页做操作,如果下班或者半夜的时候会收到一些报警,有些时候不得不起床打开电脑,在网页上处理的报警,通过移动版的DataWorks可以让大家在手机端就可以快速的处理一些告警相关的任务,甚至一些审批的功能,这样大家都不用晚上再打开电脑做报警处理在床上,只要有手机,就可以把这些报警给处理掉

数据保护伞帮助企业数据管理者建立最基本的数据审计机制

11场景描述:

企业数据管理者需要针对敏感数据进行分类、分级、审计、脱敏等操作

12解决方案:

利用专业版中的数据保护伞功能,守住企业数据安全的生命线!

(1)资产大盘:数据安全管理员在完成敏感数据规则配置的第2天,即可查看数据分布情况。

(2)自动化敏感数据识别:基于企业的数据命名规范,自定义字段名、表名识别规则,对敏感数据进行自动化的分类识别和分级管理。

(3)敏感数据全局分布展示:全盘展示数仓中存储的敏感数据详情,并支持多维度的统计,帮助企业管理者掌握敏感数据资产整体情况。(4)敏感数据行为审计,上帝视角查看:谁-在什么时候-以什么形式-访问了什么数据。

数据安全是一个比较大的模块,它根据版本不同,它的细节的功能还会有所不同,但是在专业版里面主要提供几个,比如资产大盘能够完成所有资产扫描后的结果的概览,自动化的一些敏感数据的识别,比如针对一些身份证号或者手机号敏感数据能够自动识别出,一些数据的行为审计,比如谁在什么时候以什么形式访问的数据,都可以做基本的审计功能,在数据安全模块能够保证大家有一个非常基本的数据安全体系的建立。


四、DataWorks 企业版典型场景

提效神器一DataWorks OpenAPI

1、批量操作

通过 OpenAPI 可以进行批量操作,如批量创建、修改发布任务,从而提升数据研发效率。

2、自动化操作

通过 OpenAPI 可以实现相关自动化操作,比如根据业务逻辑自动生成SQL代码,自动提交、 发布代码,自动获取结果等。

3系统集成

通过 OpenAPI 可以实现将 DataWorks 与您的自有应用系统进行集成,比如元数据打通、监控&质量信息打通等,比如构建出丰富的企业数据应用。

4、接口数量多

目前已发布150+个OpenAPI,并且还在持续增加中。

5、覆盖功能全面

OpenAPI涵盖租户、元数据、数据开发、运维中心、数据质量、数据服务等数据开发及数据治理

6、费用极低

企业版和旗舰版分别赠送100万次/月、1000万次/月的免费调用额度

在企业版中会提供OpenAPI一个非常重要的功能,这个功能目前已经提供了150多个 OpenAPI 的接口,能够让大家去进行批量的创建修改发布的操作非常好的提高大家的效率。另一块很多企业比如自己有告警系统或者其他的内部系统,可以通过 OpenAPI 的形式跟现有的系统做成和对接,比如原先有一个报警都是在dataworks 处理的,公司自己有告警系统,可以把告警接到系统当中,或者数据团队他自己可以建一个所谓的运维大屏,看一下所有的数据到底是什么样的,让其他同学看到这个数据团队做的内容和稳定性怎么样


五、DataWorks 资源组定价与选型

1、正常产出数据集成任务调度任务可直接使用按量付费,或者在后续任务跑的比较慢的时候,切换独享资源组

2、定时产出报表,定时大量数据同步,实时同步等场景建议购买独享资源组因为按量付费的公共资源组是有限的,比如特别遇到大促的时候,整个水位会非常的高,有非常重要的报表,比如今天8点产出的,发现调度起的时候延时了,最终产出数据可能要9点10点才能看到最终的数据,这个如果对有影响,建议购买独享资源组,如果需要做实时同步的场景,去构建实时的数据仓库,也是需要通过的独享资源组才能够实现的。

3、为了保证调度任务与数据集成任务的稳定性,独享资源组分为独享数据集成资源组与独享调度资源组

4计算器仅为预估费用如果估不准,根据实际情况可以先购买一台, 在运维中心查看独享资源组的水位情况,查看一个资源组是否够用,后面逐渐增加也可以。

5按量付费的默认资源组与独享资源组不限版本,不同版本有不同的功能,但是独享资源组是都可以使用的。就是能够把现有的精细进行依旧,可以在DataWorks专业版和企业版使用,就根据最近资源组不同的类型是数据集成的还是调度的会有区别,是有版本要求的,但是的独享资源组是没有版本要求的。自定义资源组仅限 DataWorks 专业版以上使用

6到底应该怎么计算配置?

(1)下面可以看到一些对应的费用的预估,就是每个调度的任务可以根据不同的时间产生不同的实例数,调度任务是按照实际数计费的,可以看到比如1~10个实例是不用的,11~500个实例,每天是0.99每个调度任务根据不同产出时间生成不同实例数(例如一个任务设置为每小时产出,天就会产生24个实例)

(2)数据集成可以看到是按线程数收费的,1~10个线程是不用钱,11~500个线程是0.99每个数据集成任务默认为2线程,线程越高同步速度越快,高线程容易将数据源资源打满。独享资源组也有首月5折的活动,可以看自己的需要去购买哪一类的资源组

image.png

DataWorks 独享资源组计算器

image.png

在计算机里面大家只需要把必填的几类内容填进去之后,会自动的计算出需要购买多少台独享资源组以及大概的费用是多少,比如需要保障的实例多少实例需要用独享资源组运行的,用1000,日常运行的时长大概是多久,可以去运维中心看,做一个简单的预估,比如大部分实例十分钟或者两分钟还是二十分钟才能够运行完,期望完成的任务时间就是这些任务大概需要在几点之前产出,比如必须要3点前或者5点前,一小时内产出和小时之内产出用的资源肯定不一样,需要填写希望在几个小时内完成,最终得出结论,需要运行的实例数是多少,基于运行实例数,推荐一个配置,预估的费用是多少,数据集成同理。


七、DataWorks 资源组使用注意事项

DataWorks 提供了三种资源组的能力:独享资源组、自定义资源组和默认资源组,很多开发者在使用资源组时经常会碰到各类情况,到时候任务运行失败或者延迟,例如:

1正在使用默认资源组,任务经常要等待

2购买错了资源组类型( 数据集成任务购买了独享调度资源组) ,使用不了。因为有两类,数据集成和调度

3购买错了地域(杭州开通DataWorks购买了北京的资源组) ,无法使用

4没买错资源组类型,也没买错地域,当天还是用不了(在运维中心任务修改资源组周期任务是需要第二天才会生效、独享数据集成资源组网络不通等)

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
4月前
|
DataWorks Kubernetes 大数据
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
|
4月前
|
SQL DataWorks 安全
DataWorks产品使用合集之如何实现分钟级调度
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
运维 DataWorks 监控
DataWorks产品使用合集之如何自定义UDTF
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
分布式计算 DataWorks API
DataWorks产品使用合集之如何设置把结果传入变量
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
DataWorks 安全 定位技术
DataWorks产品使用合集之怎么指定任务的执行时间
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
DataWorks 监控 Java
DataWorks产品使用合集之怎么查看并发数和jvm对应值
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
存储 分布式计算 DataWorks
DataWorks产品使用合集之如何引用第三方库
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
分布式计算 运维 DataWorks
DataWorks产品使用合集之如何实现任务的批量导入和导出
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
SQL DataWorks 安全
DataWorks产品使用合集之怎么跨项目移动sql任务
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
数据采集 JSON DataWorks
DataWorks产品使用合集之支持哪些数据引擎
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。

热门文章

最新文章

  • 1
    DataWorks操作报错合集之DataWorks任务异常 报错: GET_GROUP_SLOT_EXCEPTION 该怎么处理
    111
  • 2
    DataWorks操作报错合集之DataWorksUDF 报错:evaluate for user defined function xxx cannot be loaded from any resources,该怎么处理
    108
  • 3
    DataWorks操作报错合集之在DataWorks中,任务流在调度时间到达时停止运行,是什么原因导致的
    106
  • 4
    DataWorks操作报错合集之DataWorks ODPS数据同步后,timesramp遇到时区问题,解决方法是什么
    93
  • 5
    DataWorks操作报错合集之DataWorks配置参数在开发环境进行调度,参数解析不出来,收到了 "Table does not exist" 的错误,该怎么处理
    95
  • 6
    DataWorks操作报错合集之DataWorks中udf开发完后,本地和在MaxCompute的工作区可以执行函数查询,但是在datawork里报错FAILED: ODPS-0130071:[2,5],是什么原因
    104
  • 7
    DataWorks操作报错合集之DataWorks提交失败: 提交节点的源码内容到TSP(代码库)失败:"skynet_packageid is null,该怎么解决
    118
  • 8
    DataWorks操作报错合集之DataWorks在同步mysql时报错Code:[Framework-02],mysql里面有个json类型字段,是什么原因导致的
    151
  • 9
    DataWorks操作报错合集之DataWorks集成实例绑定到同一个vpc下面,也添加了RDS的IP白名单报错:数据源配置有误,请检查,该怎么处理
    88
  • 10
    DataWorks操作报错合集之在 DataWorks 中运行了一个 Hologres 表的任务并完成了执行,但是在 Hologres 表中没有看到数据,该怎么解决
    126