效率优先,DataWorks全链路数据治理年度发布

本文涉及的产品
大数据开发治理平台 DataWorks,不限时长
简介: DataWorks端到端的全链路数据开发治理平台新能力,回归工具为人服务的本质,全方位地提升我们一线数据开发人员/业务人员的工作效率。

欢迎大家来到今年的云栖大会,在大数据与AI领域,我们经常关注机器的性能,使用了多少AI训练资源,多少大数据计算资源,这些效率的提升非常容易被我们感知,但要做到全方位提升数据效率,人的效率与机器的效率同样非常关键。基于阿里云强大的大数据AI一体化的平台能力,今天我将从工具层面,为大家介绍DataWorks端到端的全链路数据开发治理平台新能力,回归工具为人服务的本质,全方位地提升我们一线数据开发人员/业务人员的工作效率。

image.png

首先向大家展示一组数字,DataWorks目前已经服务的企业客户数已经超过1万家,我们的客户覆盖了工业制造、能源、汽车、金融、零售、政务、互联网等等行业,既有大型央企、国企、世界500强企业,也有刚开始创业1-2年的中小企业,从平台的通用性上,我们的工具可以全方位满足不同行业,不同企业发展阶段的大数据开发治理需求。同时随着大数据建设不断进入深水区,数据治理成为了越来越备受关注的话题,DataWorks将在阿里巴巴集团内部沉淀了多年的数据治理经验实践产品化,目前已经在阿里云上输出并已经累计为客户发现100万+的数据问题,这个我们在后面还会详细展开。在传统的数据开发领域,现在每天在公共云上稳定调度的任务数已经超过了1000万,为企业大规模数据生产提供了强有力的保障。

image.png

这些数字的背后,得益于DataWorks构建的全链路数据开发治理平台,DataWorks是一个已经发展了十几年的产品,我们一直致力于构建企业级的数据仓库、数据湖,支持湖仓一体化的数据平台架构,加速企业数字化转型。基于阿里巴巴自研的ODPS一体化大数据智能计算平台(MaxCompute/Hologres),开源大数据计算平台EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台服务。今年DataWorks支持了EMR新推出的Datalake集群,可以完成从数据入湖、建模、开发、调度、治理、分析服务等全链路数据湖开发治理能力,并成为中国信通院评测满分、排名第一的数据湖解决方案。

image.png

以下将从数据开发、数据分析服务、数据治理、平台开放性四个方面,展开分享DataWorks的新特性。


规范化、实时化、智能化的数据开发平台

在规范化部分,我们重点介绍数据开发过程中的标准化能力。今天企业在构建数据仓库或者数据中台的时候,里面有很多业务知识,这些知识可能存在每个员工的脑子里,随着人员的流动与团队的变化,知识会逐渐丢失,或者花很长的时间去完成知识与信息的交接。对于企业级的数据平台,沉淀的不仅是数据本身,更是数据背后的业务知识。去年DataWorks发布了数据建模产品,今年我们不仅升级了正向建模、逆向建模、语义化建模等能力,解决数仓冷启动难题和降低建模的门槛,更是将数据模型、数据指标等经验沉淀成行业数据模型模板,希望将各行各业的经验都整合在一起,通过产品化和系统化的方式,让企业的数据知识与资产一直沉淀在数据平台,实现可持续发展的数据业务化。在实时化部分,随着技术和算力的发展,实时已经成为了必备的选择。DataWorks今年还新增了Mysql/Clickhouse/OceanoBase/Kafka等数据源实时写入Hologres,Mysql实时写入OSS等数据实时入仓入湖的能力。并且区别于传统的离线同步,DataWorks的数据集成可以实现全增量的一体化同步,完成数据的自动合并,提升我们数据同步的处理效率。在智能化部分,整个大数据的系统是非常复杂的,数据工程师每天做的最多的工作就是数据开发与运维,我们极其关注如何通过智能化的方式提升我们数据工程师的开发运维效率。在DataWorks产品上,我们提供了智能的SQL编程推导提醒,例如字段联想补全、代码错误提示,SQL逻辑可视化,能够让我们的SQL编程效率提升35%以上。同时运维问题往往伴随着数据出错、业务告警等严重影响,DataWorks提供了DAG聚合分析,通过可视化的方式展现上下游各个周期任务、各个周期实例调度的等待/运行中/运行成功等情况,快速查看问题任务的上下游运行情况,同时具备全链路的任务智能诊断,从依赖关系、定时检查、调度资源、引擎资源、数据质量规则等多个方面帮助数据工程师快速定位并解决各类运维问题。更进一步,DataWorks通过基线针对各类任务进行分级,在资源争抢的情况下,对于高保障的核心任务倾斜调度与计算资源,保障核心任务的准时稳定产出,并且根据历史的任务运行情况,智能监控任务运行情况,提前告警任务运行问题,数据工程师对于运维问题从被动式处理逐步转向主动式预防。在数据开发运维方面我们还沉淀了非常多的能力,今天1位数据工程师在DataWorks上可以完成的工作远超以往,可以将更多的时间放在实现业务需求与价值上。

image.png

低代码、可视化的数据分析与服务

完成数据的加工生产之后,让数据实现消费、共享和应用,才能将数据价值最大化。DataWorks发布了一套新版UI与交互的SQL取数分析工具,让数据分析师与业务人员可以实现自助取数分析,大大为ETL工程师减负。在不同的数据分析场景下,我们提供各类高效的数据处理能力。首先查询结果将会直接自动转化为可视化图表,帮助业务人员快速了解数据概况与趋势,减少各种图表加工的工作。如果需要二次处理,电子表格可以直接在页面上完成排序、筛选等常见数据操作,无需下载数据。如果需要复杂处理,数据分析还提供便捷的数据上传与下载,并具备数据权限管控能力。数据服务是连通数据和上游应用的重要纽带,面向开发人员和数据分析师,我们提供了低代码化构建数据API的全套工具。今年我们全新发布查询加速服务,基于Hologres强大的能力直接加速查询MaxCompute表,无需将数据导出到其他在线数据库,简化架构的同时也大大减少了由于数据导出导致的额外存储计算成本。

image.png

主动式、持续式的全链路数据治理

上面我们完成了大数据的起步阶段,但是当我们有了更好的工具和平台,有了底层强大的计算引擎之后,数据会非常快速地积累起来,整个平台上面的数据成本就会爆涨,对于数据平台的下一个挑战就是该如何治理,如何降低成本。DataWorks数据治理中心在今年正式商业化发布,这里面其实有两个最核心的理念。首先我们要减少各种“先污染后治理”、“先开发后治理”,DataWorks将整个数据治理的过程融入到了数据开发每一个具体的环节,内置了许多检查项规则,简单点的例如“禁用SELECT *”,这样当开发人员在跑SQL的时候,如果使用到“SELECT *”,就会提醒并禁止该操作。相对复杂的规则例如“表结构一致性检查”,如果开发环境和生产环境表结构存在不一致,就会被拦截,避免生产任务运行时产生报错或者数据质量问题。通过检查项的方式,我们就从源头直接防止了一些数据治理问题的发生。同时,面对企业不知道数据治理工作如何进行的情况,我们还会主动帮助企业发现当前存在的数据治理问题,这些治理项都是我们从阿里巴巴集团内部沉淀的一些数据治理经验,例如未配置数据质量监控、未设置生命周期、长时间未访问、长时间等待任务等等,引导企业逐步、逐项治理各类问题。开头我们也提到了,目前DataWorks数据治理中心已经累计为云上客户发现了100万+的数据治理问题,其中已经被处理的问题达到60%以上。介绍了主动式的数据治理问题发现,接下里的问题就是如何长期、持续地进行数据治理的运营,避免数据治理成为一个阶段性,运动性的工作。数据治理对于企业的大数据团队,不单是一个技术问题,更是组织和管理问题。DataWorks数据治理中心提供了全套的数据治理健康分模型。这套模型也是从阿里巴巴集团内部沉淀出来的,涉及研发、存储、计算、安全、质量五个方面,近百个计分维度,可以通过量化的手段评估企业数据治理的工作。基于健康分,企业的数据治理委员会(数据平台团队,业务团队,以及风控、财务等协同团队)就可以制定一个共同的目标,比如说把健康分从80分提升为90分,不单从业务侧、生产侧开展治理优化工作,涉及数据治理需求也会提给数据平台团队,配合健康分发起各类数据治理集团战役、数据治理大比武、数据治理学院等等长效的运营工作。组织有了可量化的方式,部门与员工也会有共同努力的目标。通过主动式的数据治理问题发现,持续式的数据治理运营,DataWorks让数据治理不再是停留在书面的一条条规章制度,而是实际可落地操作的工具产品,并与实际工作紧密结合,达成企业数据治理的正循环。image.png

开放、可扩展的企业级数据平台

最后,作为企业级的数据平台,不管是对内部的业务团队,或者对外部的合作方,我们都要保持开放性与扩展性。今年DataWorks升级了整个开放平台,在OpenAPI的基础上推出了OpenEvent开放事件、Extensions扩展程序、Migration迁移助手等全方面开放的能力DataWorks目前已经提供100多个API,方便用户可以自定义调用DataWorks的平台能力,实现企业内部应用和DataWorks的集成和交互。OpenEvent开放事件将DataWorks的各类状态变更以消息的方式触达到用户,便于用户订阅并作出个性化的响应,例如可以通过OpenEvent订阅表变更,从而实现核心表的实时监控;也可以通过订阅审批中心事件,集成企业内部的审批流程,完成自定义的流程审批能力。Extensions扩展程序核心解决的是重定义的能力。今天DataWorks所提供的一些能力,可能并不符合各个企业具体的要求,在这种情况下,企业可以利用我们的扩展插件去定义符合自己业务情况的能力。一家互联网企业和传统行业在数据治理领域的要求一定是不一样的,这个时候可以通过扩展插件去定义符合自己要求的自定义的数据治理能力。比如有些企业有严格的代码上线流程,需要增加代码评审流程,通过扩展程序可以实现当用户单击提交节点时,流程进入自定义代码评审流程中,不直接提交到开发环境中进行验证,自定义评审流程通过后再提交至开发环境。最后,Migration迁移助手实现的就是各类任务迁移的能力,除了Oozie、Azkaban、Airflow等调度引擎,今年我们还新增了DolphinScheduler的迁移,并且我们即将把迁移助手开源,企业可以从平台与平台之间,云上与云下之间,进行方便迁入和迁出。数据治理不止一种方式,DataWorks提供的不仅仅是阿里巴巴数据治理的最佳实践,更希望通过DataWorks开放平台赋予我们的客户及合作伙伴更强的自定义能力,让各行各业可以通过工具平台更加高效地完成数据治理工作。

image.png

今年的云栖大会上,我们也有众多客户展现了他们利用DataWorks及各类大数据引擎实现的数字化转型最佳实践。友邦人寿基于阿里云搭建金融数据中台,承接了10倍业务流量的高峰,让数据处理效率提升20倍,企业整体算力成本节省达数百万。“非洲之王”传音互联有力支撑集团互联网业务,数据治理效率提升2-3倍,为集团95%以上的业务增长赋能,带领更多中国企业品牌走向全球新兴市场。哪吒汽车逐步完善数据治理与数据湖能力,依靠稳定可靠、性能卓越、弹性扩展的大数据平台,未来将支持超过60万+量汽车,数PB级别的数据分析。三七互娱以DataOps理念激活数据价值,建设自动化、敏捷、价值导向的数据体系,解决数据获取难、业务响应慢、数据场景单一等数据消费的痛点,利用数据驱动运营精细化。数据治理是一个庞大的话题,涉及的方面非常多。但是还是回到我们的主题,效率优先,回归工具为人服务的本质。今年我们发布全链路数据治理的一些新功能,就是从人的视角出发,希望通过工具平台,让企业的开发人员减少低效的重复劳动,让数据人员的工作效率保持螺旋式的上升,全方位提升企业数据效率,为企业降本增效。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
5天前
|
JSON DataWorks 关系型数据库
DataWorks操作报错合集之同步Elasticsearch数据报错:Cat response did not contain a JSON Array,是什么导致的
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
5天前
|
DataWorks 关系型数据库 Java
DataWorks操作报错合集之实时同步能启动,但是不能同数据,错误提示"Thereplicaidentityoftablesyouselectedisnotfull,pleasealtertablefirst.need alter table"表示什么意思
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
5天前
|
分布式计算 DataWorks 关系型数据库
DataWorks操作报错合集之离线同步任务中,把表数据同步到POLARDB,显示所有数据都是脏数据,报错信息:ERROR JobContainer - 运行scheduler 模式[local]出错.是什么原因
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
5天前
|
分布式计算 DataWorks 关系型数据库
DataWorks操作报错合集之数据源同步时,使用脚本模式采集mysql数据到odps中,使用querySql方式采集数据,在脚本中删除了Reader中的column,但是datax还是报错OriginalConfPretreatmentUtil - 您的配置有误。如何解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
5天前
|
分布式计算 DataWorks 大数据
DataWorks操作报错合集之在尝试创建数据开发节点时遇到了权限问题,如何解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
5天前
|
DataWorks 安全 API
DataWorks产品使用合集之用API创建的补数据工作流,怎样才能获知工作流的运行状态
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
5天前
|
机器学习/深度学习 人工智能 DataWorks
人工智能平台PAI产品使用合集之在使用行调用时遇到一直卡在ps job的问题,并且无法在DataWorks上查看到相关日志,是什么导致的
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
5天前
|
分布式计算 DataWorks 关系型数据库
MaxCompute产品使用合集之DataWorks中使用Lindorm冷数据同步至MaxCompute,该如何操作
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5天前
|
存储 DataWorks 数据挖掘
DataWorks产品使用合集之标准代码如何导入模板下载
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
5天前
|
数据采集 SQL 存储
DataWorks产品使用合集之在切换编码之后,仍然有部分表查询出来的数据是乱码,该怎么办
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。

热门文章

最新文章

相关产品

  • 大数据开发治理平台 DataWorks