数据的“敏捷制造”,DataWorks一站式数据开发治理范式演进 | 《一站式大数据开发治理DataWorks使用宝典》

本文涉及的产品
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
简介: 企业大数据技术发展至今,历经了两次蜕变。第一次蜕变从最初的“小作坊”解决大数据问题,到后来企业用各类大数据技术搭建起属于自己的“大平台”,通过平台化的能力完成数据生产力的升级。第二次蜕变让大数据从“大平台”向“敏捷制造”的开发范式演进。基于DataWorks的一站式大数据开发治理的平台,就是这个蜕变最好的佐证。

企业大数据技术发展至今,历经了两次蜕变。第一次蜕变从最初的“小作坊”解决大数据问题,到后来企业用各类大数据技术搭建起属于自己的“大平台”,通过平台化的能力完成数据生产力的升级。第二次蜕变让大数据从“大平台”向“敏捷制造”的开发范式演进。基于DataWorks的一站式大数据开发治理的平台,就是这个蜕变最好的佐证。

一站式大数据开发及数据综合治理平台-500k.jpg

2021阿里云开发者大会主论坛

阿里巴巴集团副总裁,阿里云计算平台事业部高级研究员贾扬清


诞生于2009年阿里巴巴集团内部的DataWorks,不仅见证了阿里巴巴十多年大数据几次蜕变发展,更是阿里巴巴数据中台建设的最佳实践之一。DataWorks以一站式的理念,通过一条数据开发链路,一套数据标准架构,一套数据治理体系,与大数据计算引擎结合,让企业拥有一站式的数据开发与治理能力。

阿里巴巴大数据实践及背后的技术支撑.png


如今 DataWorks平台可以支撑阿里巴巴内部上百个业务团队的数据业务建设,每天稳定调度上千万数据处理任务。阿里巴巴每天有超过5万名员工在DataWorks上完成数据分析、数据开发和数据治理工作。


一、企业数字化转型的挑战

企业数字化转型发展到一定阶段以后通常会面临这些问题:


1)数据来自于不同地域的数据中心,比如阿里云上有公共云、专有云,对于企业来讲也有自己的私域,同时又要服务企业外部的客户与合作伙伴,数据非常分散。


2)大数据的引擎百花齐放,选择多样。不管是阿里自研的SaaS模式云数据仓库

MaxCompute、交互式分析Hologres和分析型数据库AnalyticDB,还是开源的

E-MapReduce、CDH、Flink、Elasticsearch等等,种类极为丰富,我们很难说哪一款产品是最好的,对于企业来说这种技术选型是多样的,按需的。


3)数据与AI及应用如何更好地结合?大数据加工处理完的数据还需要结合AI算法,以服务化的方式给到数据应用,如何实现BI与AI一体化,释放数据价值。


二、DataWorks核心能力

针对以上痛点,DataWorks可以帮助企业实现数据集成、数据开发、数据治理和数据服务,将大数据全生命周期管理整合到一条完整链路中。


(一)一条数据开发链路

一条数据开发链路.png

首先满足企业数据打通的需求。DataWorks数据集成能够在复杂网络条件下,打通各个异构数据源的传输通道,实现近50种异构数据源的离线/实时的同步,且支持线下数据库批量同步到云上,提高数据上云效率,让企业更好地迈出大数据建设的“第一步”。


其次,DataWorks底层对接了MaxCompute、E-MapReduce、CDH、Hologres、AnalyticDB、实时计算Flink版等大数据引擎,让多种计算引擎的数据开发治理工作都可以在同一个平台一站式的完成。在DataWorks上,开发人员可以通过DAG图拖拽节点的方式开发数据节点,按照企业业务流程设计编排数据任务节点依赖关系,对数据进行一站式地抽取、处理、转换后产出业务所需的结果表。


开发好的任务可以发布到运维中心定时自动调度运行,DataWorks强大的任务调度能力可以提供每日千万级的大规模、周期性任务的调度,经历多年“双11”千万级调度考验,能够满足企业数据任务稳定产出的需求,保障数据生产的时效性与稳定性。在任务运维上,DataWorks提供了数据发现、数据安全、数据质量、智能监控、资源优化等丰富的功能,可以很大程度上降低企业任务运维的难度和成本。

强大的调度能力.png

最后,大数据平台加工好的数据集可以无缝对接到机器学习平台中进行AI训练与在线预测服务,也可以通过数据服务以API形式零代码实现数据分享,在保证安全的情况下,去进行不同部门或者不同业务、不同应用间的数据共享,支撑BI、大屏等各类数据应用,而“低代码化”的数据分析和数据服务化工具可以帮助业务人员快速从数据中获得商业洞察。


(二)一套数据标准架构

对于企业而言,数据绝不是简单地堆积在一起,阿里巴巴通过数据中台建设,规范了集团统一的数据标准架构,将数据进行清晰的结构分层,每一层又有明确的范围与边界。在贴源层,企业将完成全域数据的汇聚,保留所有的原始数据。在整合层,企业通过数据标准、数据建模等方式确立数据的规范体系。在汇总层,企业将基于业务需求对数据进行汇总加工,提炼公共的数据指标。在应用层,面向前台业务应用构建数据集市,为应用提供源源不断的高质量数据服务。这一套架构本身不具备产品化能力,但企业可以基于DataWorks,快速复制这套数据标准架构。一套标准化数据架构.png


(三)一套数据治理体系

企业如何管理数据资产?如何保障数据质量?如何保障数据安全?如何有效地控制成本以及减少不必要浪费?这些问题都对数据治理提出了更高的要求。正常来讲,各类数据治理工作通过人工的方式其实也能够完成,但是阿里巴巴现在每天处理EB级的数据,每天调度的任务数在千万级,很难想象靠人工来完成所有的治理工作。DataWorks将阿里巴巴十多年数据治理的实践沉淀成产品化能力,完整覆盖模型设计、数据质量管理、元数据管理、安全管理等贯穿数据加工处理和使用的全链路所需的治理能力。一个平台,就具备一套完整的体系化的能力。

全链路综合数据治理解决方案.png

此外,DataWorks数据建模产品能力,可以让企业从业务视角进行数仓规划、数据标准定义、维度建模和数据指标设计,用规范化的“图纸”指导大数据“建设”工作,提升企业数据中台建设的规范性和标准性,大大降低企业数据中台建设门槛和成本。

DataWorks将持续加大与生态伙伴合作,推出具备不同行业属性和不同建模方法的数据建模类产品,以支撑不同行业不同场景的数仓模型设计。


三、DataWorks产品架构

DataWorks覆盖了数据同步、元数据、数据开发、数据资产、数据质量、数据地图、任务运维、数据安全、数据分析、数据服务、资源优化等数据全生命周期的治理能力。

DataWorks架构图.png

在这些能力之上,DataWorks提供了开放平台Open API,企业开发人员可以通过API调用的方式来使用DataWorks的能力,如此企业就可以将DataWorks强大的调度能力以及数据治理等功能集成到企业自己研发的数据平台中,基于Open API做定制化的功能,极大地提高了DataWorks功能使用的灵活性。


四、DataWorks产品商业化

DataWorks的收费模式是由两部分组成的,第一个是产品版本,第二个是付费资源。


关于产品版本,DataWorks产品版本分为基础版、标准版、专业版、企业版和旗舰版。基础版免费,只要开通DataWorks按量付费即可使用基础版功能,其他版本都是包年包月形式,可以按月或者按年购买使用。


关于付费资源,DataWorks付费资源主要是按量付费和独享资源。按量付费使用DataWorks的公共调用资源池,属于争抢资源,可能会出现等待资源的情况,费用按实际实例使用量计算;独享资源为包年包月的付费形式,用户可以按需购买使用,属于购买用户专用的机器资源,如果需要定时产出报表、定时大量数据同步时,推荐购买独享资源,独享资源有水位的监控,在运维中心可以看到,可以保证数据任务按时调度执行。


此外,DataWorks付费资源和MaxCompute等引擎的资源是不同的,引擎资源产生的费用主要为数据存储和计算费用,而DataWorks的付费资源用于满足任务的调度执行。


五、总结

以上是关于DataWorks产品的全部介绍内容,后续会有针对DataWorks各个产品模块能力的详细介绍。


事实上,DataWorks已经应用到各行各业的数字化转型中。在工业行业,DataWorks帮助三一重工打通86个核心业务系统,处理每月50PB的各类图像、视频、物联网数据,建设业内场景最全的数据中台。在能源行业,DataWorks帮助企业建立10余种数据中台运营规范,完成四大场景50+指标产出,规范数据治理流程,提升数据可用率。在钢铁行业,DataWorks让数据在数据中台进行自由流动,保证数据准确、准时、一致,让企业综合成本削减1亿元。在互联网行业,得物APP通过DataWorks OpenAPI构建全链路数据血缘,自主研发全链路解析能力,下线2万张表与近千个计算任务,让企业成本降低20%。

阿里巴巴十多年数据中台最佳实践.png

未来企业的数字化转型将对数据的治理与分析提出更高的要求,DataWorks将帮助企业快速构建数据中台,通过全链路的数据治理提供高质量的数据底座,让数据的“敏捷制造”成为企业数字化的“敏捷转型”。


DataWorks官网:https://www.aliyun.com/product/bigdata/ide

大数据&AI体验馆:https://workbench.data.aliyun.com/experience.htm















相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
6天前
|
SQL 分布式计算 DataWorks
活动实践 | DataWorks智能交互式数据开发与分析之旅
本指南介绍了如何使用阿里云平台进行大数据开发与分析。首先,在MaxCompute控制台创建项目并配置计算资源;接着,通过DataWorks控制台创建工作空间和独享资源组,并绑定工作空间。然后,创建个人开发环境,载入案例并新建Notebook实例。在Notebook中,通过SQL和Python Cell进行交互式开发和数据分析,体验智能助手Copilot的功能,如SQL改写、解释、生成注释及智能建表。最后,清理所有创建的资源,包括删除DataWorks资源、MaxCompute项目及网络配置,确保环境整洁。
|
4天前
|
数据采集 机器学习/深度学习 DataWorks
DataWorks产品评测:大数据开发治理的深度体验
DataWorks产品评测:大数据开发治理的深度体验
34 1
|
13天前
|
SQL 人工智能 自然语言处理
DataWorks年度发布:智能化湖仓一体数据开发与治理平台的演进
阿里云在过去15年中持续为268集团提供数据服务,积累了丰富的实践经验,并连续三年在IDC中国数据治理市场份额中排名第一。新一代智能数据开发平台DateWorks推出了全新的DateStudio IDE,支持湖仓一体化开发,新增Flink计算引擎和全面适配locs,优化工作流程系统和数据目录管理。同时,阿里云正式推出个人开发环境模式和个人Notebook,提升开发者体验和效率。此外,DateWorks Copilot通过自然语言生成SQL、代码补全等功能,显著提升了数据开发与分析的效率,已累计帮助开发者生成超过3200万行代码。
|
13天前
|
人工智能 Cloud Native 大数据
DataWorks深度技术解读:构建开放的云原生数据开发平台
Dateworks是一款阿里云推出的云原生数据处理产品,旨在解决数据治理和数仓管理中的挑战。它强调数据的准确性与一致性,确保商业决策的有效性。然而,严格的治理模式限制了开发者的灵活性,尤其是在面对多模态数据和AI应用时。为应对这些挑战,Dateworks进行了重大革新,包括云原生化、开放性增强及面向开发者的改进。通过Kubernetes作为资源底座,Dateworks实现了更灵活的任务调度和容器化支持,连接更多云产品,并提供开源Flowspec和Open API,提升用户体验。
|
1月前
|
DataWorks 搜索推荐 数据挖掘
DataWorks: 驾驭数据浪潮,解锁用户画像分析新纪元
本文详细评测了DataWorks产品,涵盖最佳实践、用户体验、与其他工具对比及Data Studio新功能。内容涉及用户画像分析、数据管理作用、使用过程中的问题与改进建议,以及Data Studio的新版Notebook环境和智能助手Copilot的体验。整体评价肯定了DataWorks在数据处理和分析上的优势,同时也指出了需要优化的地方。
114 24
|
25天前
|
SQL 分布式计算 DataWorks
DataWorks智能交互式数据开发与分析之旅
本次实验将带您进行DataWorks Notebook的快速入门,包含:Notebook新建、多引擎SQL开发与分析、Python开发、交互式分析等,同时,使用DataWorks Copilot体验智能数据开发,体验智能交互式数据探索之旅。
1524 8
|
25天前
|
SQL DataWorks 数据可视化
阿里云DataWorks评测:大数据开发治理平台的卓越表现
阿里云DataWorks是一款集数据集成、开发、分析与管理于一体的大数据平台,支持多种数据源无缝整合,提供可视化ETL工具和灵活的任务调度机制。其内置的安全体系和丰富的插件生态,确保了数据处理的高效性和安全性。通过实际测试,DataWorks展现了强大的计算能力和稳定性,适用于中小企业快速搭建稳定高效的BI系统。未来,DataWorks将继续优化功能,降低使用门槛,并推出更多灵活的定价方案,助力企业实现数据价值最大化。
|
29天前
|
SQL 分布式计算 DataWorks
DataWorks产品测评|基于DataWorks和MaxCompute产品组合实现用户画像分析
本文介绍了如何使用DataWorks和MaxCompute产品组合实现用户画像分析。首先,通过阿里云官网开通DataWorks服务并创建资源组,接着创建MaxCompute项目和数据源。随后,利用DataWorks的数据集成和数据开发模块,将业务数据同步至MaxCompute,并通过ODPS SQL完成用户画像的数据加工,最终将结果写入`ads_user_info_1d`表。文章详细记录了每一步的操作过程,包括任务开发、运行、运维操作和资源释放,帮助读者顺利完成用户画像分析。此外,还指出了文档中的一些不一致之处,并提供了相应的解决方法。
|
28天前
|
分布式计算 DataWorks 搜索推荐
聊聊DataWorks这个大数据开发治理平台
聊聊DataWorks这个大数据开发治理平台
65 2
|
1月前
|
机器学习/深度学习 存储 数据采集
解锁DataWorks:一站式大数据治理神器
解锁DataWorks:一站式大数据治理神器
57 1

热门文章

最新文章

相关产品

  • 大数据开发治理平台 DataWorks