开发者学堂课程【DataWorks一站式大数据开发治理平台精品课程:5.DataWorks 产品定价与选型】与课程紧密联系,让用户快速学习知识
课程地址:https://developer.aliyun.com/learning/course/81/detail/1226
5.DataWorks 产品定价与选型
内容介绍:
一、DataWorks 付费模式
二、DataWorks 增值版本定价与选型
三、DataWorks 专业版典型场景
四、DataWorks 企业版典型场景
五、DataWorks 资源组定价与选型
六、DataWorks 独享资源组计算器
七、DataWorks 资源组使用注意事项
一、DataWorks 付费模式
DataWorks 收费模式由产品版本+付费资源组成。
1、默认开通的是基础版(产品版本) +按量付费(付费资源)。
2、增值版本分为基础版、标准版、专业版、企业版、旗舰版,专业版,不同的版本主要是功能上使用的区别和差别,推荐专业版首月199元的试用活动,它的功能和价格性价比最高的一个版本。
3、付费资源分为按量付费与独享资源( 独享调度资源与独享数据集成资源)独享资源首月5折定时产出报表,定时大量数据同步,实时同步等场景建议购买独享资源组。
4、按量付费提供的是默认资源组,高峰期可能无法保证所有任务准时调度运行。
刚才都是DataWorks本身,DataWorks作为一站式的开发治理平台还会搭配引擎一起使用,官网也有和引擎组合购买的链接,可以根据自己不同的需要选择不同的引擎,不管是DataWorks+MaxCompute、DataWorks+EMRC、DataWorks+MC- -Hologres、DataWorks+PAl都是支持的。
二、DataWorks 增值版本定价与选型
官网有各个版本的功能区别,目前推荐使用DataWorks专业版,原价5000元/月,新购首月仅需199元就可以体验。可以看到专业版比标准版多了非常多,不一样的功能。
三、DataWorks 专业版典型场景
专业版典型场景,第一有资源优化的模块,能够节省计算和存储的费用,就是大家随着数据量越越多,会发现很多的计算存储资源是会浪费掉的,通过资源优化的模块,能够扫描到,比如重复的表,重复的计算或者重复的数据同步任务,有一些计算的结果或者计算的表都是一样的,可以扫描出,按照一些大小做排序,存储的大小或者计算资源的大小做排序,帮助大家更好的去优化这些任务,对于大家一些费用的节省还是比较好的。资源优化帮您节省计算、存储费用。
1、场景描述:
随着数据量的增长,难以发现造成计算、存储资源浪费的行为,导致费用增加。
2、解决方案:
“资源优化”从数据存储、计算、采集3个领域进行扫描,帮您扫
描出可以优化的表和节点,从而合理、高效地运行 DataWorks 上的
任务。如:
(1)数据倾斜SQL任务
(2)SQL暴力扫描
(3)近90天未访问的表
(4)存储量为0的表
(5)被多个任务同时写入的表(可能导致非合预期结果)
扫描领域 |
优化对象 |
可优化项 |
数据存储 |
MaxCompute 表 MaxCompute 任务 |
未管理的表 |
空表 |
||
最近90天未访问表 |
||
数据计算 |
优化对象 MaxCompute 表 MaxCompute 任务 |
冲突任务 |
数据倾斜 |
||
暴力扫描 |
||
数据采集 |
同步任务 |
导入为空 |
持续导入一致 |
||
同源导入 |
||
OSS同步优化 |
智能监控提高生产力,一种优雅的告警处理方式。
3、场景描述:
任务工作流节点多,每个任务监控规则多,每个监控规则变化多,人肉维护就像网络工程师理网线,恨不得一刀剪干净。
4、解决方案:
在DataWorks专业版里,您只需要找到“网线的两端”,任务流最终产出的任务,系统将根据历史任务的运行情况,自动为您梳理中间的任务进程,智能决策是否报警、何时报警、如何报警以及给谁报警。比如设置晚上12点产出,当配置完智能监控之后,智能监控会通过算法以及历史的一些上游的任务运行时间,进行自动的判断k点能否在预期的时间执行。比如本来是在中午12点之前完成,但是到12点时发现它一直没有执行完成,系统判断后它后面的一些路径和流程,其他的任务,最终计算结果k点是没办法准时产出的,在中午12点就会做一个告警,可以让大家做一些提早的干预,能够保证可以k点在晚上10点时做准确的展出。提前的预估和智能的监控对于大家平常效率的提高还是非常大的。
(1)使用前:
需要配置每个节点的告警规则。
(2)使用后:
①仅需设置K点的最终时间。
②智能识别关键路径。
③根据每个节点历史运行时间,打通全链路智能预警。
④自动评估事件影响范围,自定义报警通知相应人员。
字段级数据血缘,快速定位脏数据源头
5、场景描述:
每日报表中,某交易数字字段产生异常值(过高/过低/空值/重
复值) ,需要寻找脏数据源头。
6、解决方案:
数据时代,数据的联姻融合、转换变换、流转流通形成了数据的血缘关系,构成虚拟的数字实体。在如此复杂的关系中,通过DataWorks数据血缘功能,能够查看到表与表,字段与字段之间的血缘关系,帮助您快速找到“病灶”,解决“病根”,消除“病痛"。
日期 |
当日交易额 |
20190510 |
123456 |
20190511 |
0 |
修正后
日期 |
当日交易额 |
20190510 |
123456 |
20190511 |
123450 |
比如在图上所列举的场景,原先交易额都是有数据,但是有一天它出现了一个空值,就可以根据的数据血缘去排查这些数据,错误在哪里,比如往回追溯的table9,它的数据产出也是0,table7它的数据产出
也是0,table4发现它是有数据的,并且这个数据跟日常的差别不
大,很有可能就是在table4到table7它之间出现了一些问题,就会重点去排查table4到table7这一段数据的流程是不是存在一些问题,去盯着的数据,让数据这个数据保证准时和准确的产出。
高效、稳定、安全的SQL代码复用。
7、场景描述:
同一SQL代码块需要给他人重复利用,传统的手动复制粘贴效
率太低且容易误操作,如何摆脱CV工程师的命运?
8、解决方案:
使用专业版中SQL代码块功能,以模块化形式进行高效、稳定、
安全的SQL代码复用!
你想要复制的内容
Ctrl c Select +from table1
Ctrl vDelete+from table1
同一代码块无需编辑,直接拖动,支持变量传参、多业代码重用,支持组件升级,查看新旧组件代码,自行决定组件升级需求。
经常在sql时,比如会复制粘贴别人写的sql,或者之前自己经常用的一些sql代码,在复制过程中,比如一些场合要拖动旋转会比较的麻烦,经常会容易复制出错。专业版有sql代码的模块,大家以模块化的形式把之前经常用到的一些sql通过组件的形式拖进来即可,不需要选中非常长,或者每次都是快捷键进行复制,通过这种模块化的形式让这些节点使用的更加准确的高效。
移动版DataWorks-被窝里轻松搞定任务运维。
9、场景描述:
非工作时间或者旅途中接到任务报警电话,需要立刻处理,但是电脑不在身边怎么办?
10、解决方案:
使用移动版 DataWorks,手机上快速处理报警,轻松搞定任务。
运维:
(1)支持阿里云App/钉钉/手机浏览器登录,DataWorks 触手可及。
(2)产品版本信息一目了然,高效进行版本管理。
(3)报警短信直达DataWorks,被窝里轻松搞定任务运维。
(4)更清晰的甘特图,横屏竖屏切换自如。
(5)查看日志一键到底,再也不用做没有感情的翻页机器。
移动运维的功能,因为DataWorks基本上都是通过网页做操作,如果下班或者半夜的时候会收到一些报警,有些时候不得不起床打开电脑,在网页上处理的报警,通过移动版的DataWorks可以让大家在手机端就可以快速的处理一些告警相关的任务,甚至一些审批的功能,这样大家都不用在晚上再打开电脑做报警处理,在床上,只要有手机,就可以把这些报警给处理掉。
数据保护伞帮助企业数据管理者建立最基本的数据审计机制。
11、场景描述:
企业数据管理者需要针对敏感数据进行分类、分级、审计、脱敏等操作
12、解决方案:
利用专业版中的数据保护伞功能,守住企业数据安全的生命线!
(1)资产大盘:数据安全管理员在完成敏感数据规则配置的第2天,即可查看数据分布情况。
(2)自动化敏感数据识别:基于企业的数据命名规范,自定义字段名、表名识别规则,对敏感数据进行自动化的分类识别和分级管理。
(3)敏感数据全局分布展示:全盘展示数仓中存储的敏感数据详情,并支持多维度的统计,帮助企业管理者掌握敏感数据资产整体情况。(4)敏感数据行为审计,上帝视角查看:谁-在什么时候-以什么形式-访问了什么数据。
数据安全是一个比较大的模块,它根据版本不同,它的细节的功能还会有所不同,但是在专业版里面主要提供几个,比如资产大盘能够完成所有资产扫描后的结果的概览,自动化的一些敏感数据的识别,比如针对一些身份证号或者手机号,敏感数据能够自动识别出,一些数据的行为审计,比如谁在什么时候以什么形式访问的数据,都可以做基本的审计功能,在数据安全模块能够保证大家有一个非常基本的数据安全体系的建立。
四、DataWorks 企业版典型场景
提效神器一DataWorks OpenAPI
1、批量操作
通过 OpenAPI 可以进行批量操作,如批量创建、修改发布任务,从而提升数据研发效率。
2、自动化操作
通过 OpenAPI 可以实现相关自动化操作,比如根据业务逻辑自动生成SQL代码,自动提交、 发布代码,自动获取结果等。
3、系统集成
通过 OpenAPI 可以实现将 DataWorks 与您的自有应用系统进行集成,比如元数据打通、监控&质量信息打通等,比如构建出丰富的企业数据应用。
4、接口数量多
目前已发布150+个OpenAPI,并且还在持续增加中。
5、覆盖功能全面
OpenAPI涵盖租户、元数据、数据开发、运维中心、数据质量、数据服务等数据开发及数据治理。
6、费用极低
企业版和旗舰版分别赠送100万次/月、1000万次/月的免费调用额度。
在企业版中会提供OpenAPI一个非常重要的功能,这个功能目前已经提供了150多个 OpenAPI 的接口,能够让大家去进行批量的创建修改发布的操作,非常好的提高大家的效率。另一块很多企业比如它自己有告警系统或者其他的内部系统,可以通过 OpenAPI 的形式跟现有的系统做集成和对接,比如原先有一个报警都是在dataworks 处理的,公司自己有告警系统,可以把告警接到系统当中,或者数据团队他自己可以建一个所谓的运维大屏,看一下所有的数据到底是什么样的,让其他同学看到这个数据团队做的内容和稳定性怎么样。
五、DataWorks 资源组定价与选型
1、正常产出数据集成任务,调度任务可直接使用按量付费,或者在后续任务跑的比较慢的时候,切换独享资源组。
2、定时产出报表,定时大量数据同步,实时同步等场景建议购买独享资源组。因为按量付费的公共资源组是有限的,比如特别遇到大促的时候,整个水位会非常的高,有非常重要的报表,比如今天8点产出的,发现调度起的时候延时了,最终产出数据可能要9点10点才能看到最终的数据,这个如果对你有影响,建议购买独享资源组,如果需要做实时同步的场景,去构建实时的数据仓库,也是需要通过的独享资源组才能够实现的。
3、为了保证调度任务与数据集成任务的稳定性,独享资源组分为独享数据集成资源组与独享调度资源组。
4、计算器仅为预估费用,如果估不准,根据实际情况可以先购买一台, 在运维中心查看独享资源组的水位情况,查看一个资源组是否够用,后面逐渐增加也可以。
5、按量付费的默认资源组与独享资源组不限版本,不同版本有不同的功能,但是独享资源组是都可以使用的。就是能够把现有的精细进行依旧,可以在DataWorks专业版和企业版使用,就根据最近资源组不同的类型,是数据集成的还是调度的会有区别,是有版本要求的,但是的独享资源组是没有版本要求的。自定义资源组仅限 DataWorks 专业版以上使用。
6、到底应该怎么计算配置?
(1)下面可以看到一些对应的费用的预估,就是每个调度的任务可以根据不同的时间产生不同的实例数,调度任务是按照实际数计费的,可以看到比如1~10个实例是不用的,11~500个实例,每天是0.99,每个调度任务根据不同产出时间生成不同实例数(例如一个任务设置为每小时产出,一天就会产生24个实例)。
(2)数据集成可以看到是按线程数收费的,1~10个线程是不用钱,11~500个线程是0.99,每个数据集成任务默认为2线程,线程越高同步速度越快,高线程容易将数据源资源打满。独享资源组也有首月5折的活动,可以看自己的需要去购买哪一类的资源组。
DataWorks 独享资源组计算器
在计算机里面大家只需要把必填的几类内容填进去之后,会自动的计算出需要购买多少台独享资源组以及大概的费用是多少,比如需要保障的实例数,多少实例需要用独享资源组运行的,用1000,日常运行的时长大概是多久,可以去运维中心看,做一个简单的预估,比如大部分实例十分钟或者两分钟还是二十分钟才能够运行完,期望完成的任务时间就是这些任务大概需要在几点之前产出,比如必须要3点前或者5点前,一小时内产出和五小时之内产出用的资源肯定不一样,需要填写希望在几个小时内完成,最终得出结论,需要运行的实例数是多少,基于运行实例数,推荐一个配置,预估的费用是多少,数据集成同理。
七、DataWorks 资源组使用注意事项
DataWorks 提供了三种资源组的能力:独享资源组、自定义资源组和默认资源组,很多开发者在使用资源组时经常会碰到各类情况,到时候任务运行失败或者延迟,例如:
1、正在使用默认资源组,任务经常要等待。
2、购买错了资源组类型( 数据集成任务购买了独享调度资源组) ,使用不了。因为有两类,数据集成和调度。
3、购买错了地域(杭州开通DataWorks购买了北京的资源组) ,无法使用。
4、没买错资源组类型,也没买错地域,当天还是用不了(在运维中心任务修改资源组周期任务是需要第二天才会生效、独享数据集成资源组网络不通等)。