开发者学堂课程【DataWorks 一站式大数据开发治理平台精品课程:1.5分钟 DataWorks 产品入门】与课程紧密联系,让用户快速学习知识
课程地址:https://developer.aliyun.com/learning/course/81/detail/1222
1.5分钟 DataWorks 产品入门
内容介绍:
一、DataWorks 一站式大数据开发治理平台
二、DataWorks 飞天大数据平台操作系统
三、DataWorks 产品架构
四、DataWorks 合规认证及荣誉奖项
五、DataWorks 数据集成-数据上下云的枢纽
六、DataWorks 全链路数据开发平台
七、DataWorks 离线数据开发-Data Studio
八、DataWorks 数据治理平台核心要素
九、DataWorks 产品核心价值
十、DataWorks 付费模式
一、DataWorks一站式大数据开发治理平台
1、DataWorks 基于 MaxCompute/EMR/ MC-Hologres 等大数据计算引擎,为客户提供专业高效、安全可靠的一站式大数据开发与治理平台,自带阿里巴巴数据中台与数据治理最佳实践,赋能各行业数字化转型。
2、阿里巴巴十一年数据中台与数据治理最佳实践
从2009年开始 MaxCompute 产品体系一直支撑着集团内部数据中台的建设,现在集团几乎所有的数据都存储在 MaxCompute,每天也会有数万名运营小二,数据工程师,数据开发工程师,算法使用 DataWorks。
2020年双11, MaxCompute日处理数据超过1.7EB, DataWorks 日调度数超过千万。
(1)2009
进入空气稀薄地带,开源?自研?飞天的第一行代码,阿里云技术之路的起点。
(2)2015
登月计划,突破调度5000台服务器,投10年,投10个亿,中国第一家拥有完整的云计算能力的企业,一飞冲天。
(3)2016
全球化,飞天云操作系统获得中国,电子学会16年来颁发的唯一科技迸步奖特等奖。
(4)2017
商业化,阿里云大数据品牌“数加”,20+款大数据产品MaxCompute+DataWorks 普惠大数据。
(5)2018
驱动数字中国 MaxCompute 再次打破排序世界纪录 DataWorks 一站式智能云研发平台飞天X城市大脑2.0。
(6)2019
飞天大数据平台,中国唯一自研计算引擎,规模最大、数据处理能力最强,数据综合治理体系,AI加持的飞天大数据平台。
二、DataWorks 飞天大数据平台操作系统
8大核心引擎+1个操作系统
DataWorks 作为操作系统对接不同的引擎,客户可以根据不同的需求,选择对应的引擎,不管是阿里大数据计算 MaxCompute、开元大数据计算 E-MapReduce、实时RealtimeCompute、图计算 GraphCompute、交互式分析 MC-Hologres、智能搜索AlRec、自研分布式搜索 OpenSearch、开源搜索Elasticsearch都可以通过DataWorks完成大数据开发和一站式治理。
1、DataWorks 一站式大数据开发治理平台
全域数据集成,跨引擎智能云上开发,大数据综合治理。
2、阿里大数据计算引擎
BigBench评测全球第一,规模最大,可扩展到10万台。
3、开源大数据计算引擎
打破多项世界纪录,全球首个通过TPC公认证的公共云产品。
4、实时大数据计算引肇
Apache Flink团队官方出品,首批通过流计算产品能力测评产品。
5、图计算引擎
应用集团内50多个业务场景,支持百亿点、千亿边规模的超大图存储。
6、交互式分析引擎
PB级数据亚秒级查询与实时计算引擎构建实时数仓。
7、智能推荐引擎
领先的算法及模型能力,阿里巴巴智能推荐技术输出,自研分布式搜索引”,QPS峰值近百万,阿里巴巴搜索服务技术输出。
8、开源搜索引擎
降低成本并大幅提升原生性能,100%兼容开源Elasticsearch。
三、DataWorks 产品架构
在数据集成支持批量,增量,实时的数据同步,通过统一任务调度服务和统一元数据服务进行核心支撑数据开发和治理,在数据开发层面对于不同的引擎,有不同的XStudio,有离线开发,实时开发,交互式分析,数据开发完成后,会有数据治理各个模块提供数据治理的相关功能,数据开发治理完成后,有数据服务进行更好的共享,最后有一个 OpenAPI 的开放平台。如果有一些定制化,批量的需求,都可以通过 OpenAPI 进行实现。
四、DataWorks 合规认证及荣誉奖项
五、DataWorks 数据集成-数据上下云的枢纽
提供复杂网络环境下、丰富的异构数据源和端之间、具备长链路数据加速,支持同步异步数据传输转换的数据传输桥梁。
支持非常多数据源的抽取和导出,支持离线同步,实时同步,整库迁移做数据的上下云。
1、关系型数据库
SQL Server、 PostegreSQL、达梦、DRDS、MySQL、Oracle、RDS for PPAS、DB2
2、MPP
AnalyticDB for Mysql、AnalyticDB for PostgreSQL
3、大数据存储
MaxCompute 、HDFS、 HIVE
4、非结构化存储
OSS、FTP、多媒体文件
5、NoSql
HBase、OTS、MongoDB
六、DataWorks 全链路数据开发平台
针对不同的引擎有不同的 Studio,Studio 中有非常多好用的功能帮助完成全链路数据开发,通过数据服务对接大屏或者AI报表系统。
七、DataWorks 离线数据开发-Data Studio
在数据开发中,核心是离线数据开发,Data Studio 支持阿里 MaxCompute 和 E-MapReduce 两种大数据引擎的离线数仓开发,
可构建复杂的业务流程和调度依赖,提供开发、生产环境隔离的研发模式。
1、业务流程混合编排
可视化拖拽式多引擎任务混合编排
2、智能SQL编辑器
Al加持的SQL编辑器,智能提示,SQL算子,结构可视化展示
3、全面的引擎能力封装
支持计算引擎的任务、表、资源、函数管理,让您无需接触复杂的引擎命令行
4、自定义节点
提供自定义节点插件化机制,支持您扩展计算任务类型,自主接入自定义计算服务
八、DataWorks 数据治理平台核心要素
数据发现:基础元数据的规则定义、自动采集、批量获取、增量更新支持资产类目、组织架构、标签等衍生属性自定义。
数据探查:一键洞察相关统计量及分布情况。
数据资产地图:全局资产搜索、类目检索、资产详情检视集中展示元数据分析、数据探查、数据质量、数据安全、智能监控、资源优化概况。
元数据解析:智能解析数据血缘、数据热度、数据产出等复杂元数据。
数据安全:敏感数据智能识别及脱敏,风险,预警与审计。
数据质量:异构存储数据质量自动检测与校验。
智能监控:海量计算任务智能监控与业务基线预警。
资源优化:存储/计算资源优化、诊断与分析。
把数据治理的方法沉淀成产品功能,企业可以在里面,通过数据资产地图看到各种各样的数据资产信息,同时也可以通过数据安全,数据质量,智能监控,资源优化等各个模块帮助企业完成 dataworks 的数据治理。
九、DataWorks 产品核心价值
1、功能健全
一站式全域数据平台性能卓越,覆盖数据研发全生命周期;日PB级数据同步;日千万级任务调度。
2、便捷易用
云上全图形化操作界面,图形代码互转,1小时上手大数据全流程研发;阿里数千名运营小二都在用。
3、降本提效
云原生、全托管,开箱即用,相比自研或使用开源工具,有效降低平台研发和运维成本,让您专注于业务本身,购买开通即可。
4、安全稳定
租户隔离,细粒度,权限控制,金融级数据安全保障;通过“双11"稳定性考验。
十、DataWorks 付费模式
DataWorks 收费模式由产品版本+付费资源组成。基于不同版本有不同的功能,推荐性价比最高的是专业版。正常使用按量付费是没有问题的
1、默认开通的是基础版(产品版本) +按量付费(付费资源)。
2、增值版本分为基础版、标准版、专业版、企业版、旗舰版,专业版首月199元。
3、付费资源分为按量付费与独享资源(独享调度资源与独享数据集成资源)独享资源首月5折定时产出报表,定时大量数据同步,实时同步等场景建议购买独享资源组,因为按量资源组在高峰期时是没有办法保证这些任务的准时调度,有一些表的产出可能会延期。
4、按量付费提供的是默认资源组,高峰期可能无法保证所有任务准时调度运行。