欢迎大家来到今年的云栖大会,在大数据与AI领域,我们经常关注机器的性能,使用了多少AI训练资源,多少大数据计算资源,这些效率的提升非常容易被我们感知,但要做到全方位提升数据效率,人的效率与机器的效率同样非常关键。基于阿里云强大的大数据AI一体化的平台能力,今天我将从工具层面,为大家介绍DataWorks端到端的全链路数据开发治理平台新能力,回归工具为人服务的本质,全方位地提升我们一线数据开发人员/业务人员的工作效率。
首先向大家展示一组数字,DataWorks目前已经服务的企业客户数已经超过1万家,我们的客户覆盖了工业制造、能源、汽车、金融、零售、政务、互联网等等行业,既有大型央企、国企、世界500强企业,也有刚开始创业1-2年的中小企业,从平台的通用性上,我们的工具可以全方位满足不同行业,不同企业发展阶段的大数据开发治理需求。同时随着大数据建设不断进入深水区,数据治理成为了越来越备受关注的话题,DataWorks将在阿里巴巴集团内部沉淀了多年的数据治理经验实践产品化,目前已经在阿里云上输出并已经累计为客户发现100万+的数据问题,这个我们在后面还会详细展开。在传统的数据开发领域,现在每天在公共云上稳定调度的任务数已经超过了1000万,为企业大规模数据生产提供了强有力的保障。
这些数字的背后,得益于DataWorks构建的全链路数据开发治理平台,DataWorks是一个已经发展了十几年的产品,我们一直致力于构建企业级的数据仓库、数据湖,支持湖仓一体化的数据平台架构,加速企业数字化转型。基于阿里巴巴自研的ODPS一体化大数据智能计算平台(MaxCompute/Hologres),开源大数据计算平台EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台服务。今年DataWorks支持了EMR新推出的Datalake集群,可以完成从数据入湖、建模、开发、调度、治理、分析服务等全链路数据湖开发治理能力,并成为中国信通院评测满分、排名第一的数据湖解决方案。
以下将从数据开发、数据分析服务、数据治理、平台开放性四个方面,展开分享DataWorks的新特性。
规范化、实时化、智能化的数据开发平台
在规范化部分,我们重点介绍数据开发过程中的标准化能力。今天企业在构建数据仓库或者数据中台的时候,里面有很多业务知识,这些知识可能存在每个员工的脑子里,随着人员的流动与团队的变化,知识会逐渐丢失,或者花很长的时间去完成知识与信息的交接。对于企业级的数据平台,沉淀的不仅是数据本身,更是数据背后的业务知识。去年DataWorks发布了数据建模产品,今年我们不仅升级了正向建模、逆向建模、语义化建模等能力,解决数仓冷启动难题和降低建模的门槛,更是将数据模型、数据指标等经验沉淀成行业数据模型模板,希望将各行各业的经验都整合在一起,通过产品化和系统化的方式,让企业的数据知识与资产一直沉淀在数据平台,实现可持续发展的数据业务化。在实时化部分,随着技术和算力的发展,实时已经成为了必备的选择。DataWorks今年还新增了Mysql/Clickhouse/OceanoBase/Kafka等数据源实时写入Hologres,Mysql实时写入OSS等数据实时入仓入湖的能力。并且区别于传统的离线同步,DataWorks的数据集成可以实现全增量的一体化同步,完成数据的自动合并,提升我们数据同步的处理效率。在智能化部分,整个大数据的系统是非常复杂的,数据工程师每天做的最多的工作就是数据开发与运维,我们极其关注如何通过智能化的方式提升我们数据工程师的开发运维效率。在DataWorks产品上,我们提供了智能的SQL编程推导提醒,例如字段联想补全、代码错误提示,SQL逻辑可视化,能够让我们的SQL编程效率提升35%以上。同时运维问题往往伴随着数据出错、业务告警等严重影响,DataWorks提供了DAG聚合分析,通过可视化的方式展现上下游各个周期任务、各个周期实例调度的等待/运行中/运行成功等情况,快速查看问题任务的上下游运行情况,同时具备全链路的任务智能诊断,从依赖关系、定时检查、调度资源、引擎资源、数据质量规则等多个方面帮助数据工程师快速定位并解决各类运维问题。更进一步,DataWorks通过基线针对各类任务进行分级,在资源争抢的情况下,对于高保障的核心任务倾斜调度与计算资源,保障核心任务的准时稳定产出,并且根据历史的任务运行情况,智能监控任务运行情况,提前告警任务运行问题,数据工程师对于运维问题从被动式处理逐步转向主动式预防。在数据开发运维方面我们还沉淀了非常多的能力,今天1位数据工程师在DataWorks上可以完成的工作远超以往,可以将更多的时间放在实现业务需求与价值上。
低代码、可视化的数据分析与服务
完成数据的加工生产之后,让数据实现消费、共享和应用,才能将数据价值最大化。DataWorks发布了一套新版UI与交互的SQL取数分析工具,让数据分析师与业务人员可以实现自助取数分析,大大为ETL工程师减负。在不同的数据分析场景下,我们提供各类高效的数据处理能力。首先查询结果将会直接自动转化为可视化图表,帮助业务人员快速了解数据概况与趋势,减少各种图表加工的工作。如果需要二次处理,电子表格可以直接在页面上完成排序、筛选等常见数据操作,无需下载数据。如果需要复杂处理,数据分析还提供便捷的数据上传与下载,并具备数据权限管控能力。数据服务是连通数据和上游应用的重要纽带,面向开发人员和数据分析师,我们提供了低代码化构建数据API的全套工具。今年我们全新发布查询加速服务,基于Hologres强大的能力直接加速查询MaxCompute表,无需将数据导出到其他在线数据库,简化架构的同时也大大减少了由于数据导出导致的额外存储计算成本。
主动式、持续式的全链路数据治理
上面我们完成了大数据的起步阶段,但是当我们有了更好的工具和平台,有了底层强大的计算引擎之后,数据会非常快速地积累起来,整个平台上面的数据成本就会爆涨,对于数据平台的下一个挑战就是该如何治理,如何降低成本。DataWorks数据治理中心在今年正式商业化发布,这里面其实有两个最核心的理念。首先我们要减少各种“先污染后治理”、“先开发后治理”,DataWorks将整个数据治理的过程融入到了数据开发每一个具体的环节,内置了许多检查项规则,简单点的例如“禁用SELECT *”,这样当开发人员在跑SQL的时候,如果使用到“SELECT *”,就会提醒并禁止该操作。相对复杂的规则例如“表结构一致性检查”,如果开发环境和生产环境表结构存在不一致,就会被拦截,避免生产任务运行时产生报错或者数据质量问题。通过检查项的方式,我们就从源头直接防止了一些数据治理问题的发生。同时,面对企业不知道数据治理工作如何进行的情况,我们还会主动帮助企业发现当前存在的数据治理问题,这些治理项都是我们从阿里巴巴集团内部沉淀的一些数据治理经验,例如未配置数据质量监控、未设置生命周期、长时间未访问、长时间等待任务等等,引导企业逐步、逐项治理各类问题。开头我们也提到了,目前DataWorks数据治理中心已经累计为云上客户发现了100万+的数据治理问题,其中已经被处理的问题达到60%以上。介绍了主动式的数据治理问题发现,接下里的问题就是如何长期、持续地进行数据治理的运营,避免数据治理成为一个阶段性,运动性的工作。数据治理对于企业的大数据团队,不单是一个技术问题,更是组织和管理问题。DataWorks数据治理中心提供了全套的数据治理健康分模型。这套模型也是从阿里巴巴集团内部沉淀出来的,涉及研发、存储、计算、安全、质量五个方面,近百个计分维度,可以通过量化的手段评估企业数据治理的工作。基于健康分,企业的数据治理委员会(数据平台团队,业务团队,以及风控、财务等协同团队)就可以制定一个共同的目标,比如说把健康分从80分提升为90分,不单从业务侧、生产侧开展治理优化工作,涉及数据治理需求也会提给数据平台团队,配合健康分发起各类数据治理集团战役、数据治理大比武、数据治理学院等等长效的运营工作。组织有了可量化的方式,部门与员工也会有共同努力的目标。通过主动式的数据治理问题发现,持续式的数据治理运营,DataWorks让数据治理不再是停留在书面的一条条规章制度,而是实际可落地操作的工具产品,并与实际工作紧密结合,达成企业数据治理的正循环。
开放、可扩展的企业级数据平台
最后,作为企业级的数据平台,不管是对内部的业务团队,或者对外部的合作方,我们都要保持开放性与扩展性。今年DataWorks升级了整个开放平台,在OpenAPI的基础上推出了OpenEvent开放事件、Extensions扩展程序、Migration迁移助手等全方面开放的能力。DataWorks目前已经提供100多个API,方便用户可以自定义调用DataWorks的平台能力,实现企业内部应用和DataWorks的集成和交互。OpenEvent开放事件将DataWorks的各类状态变更以消息的方式触达到用户,便于用户订阅并作出个性化的响应,例如可以通过OpenEvent订阅表变更,从而实现核心表的实时监控;也可以通过订阅审批中心事件,集成企业内部的审批流程,完成自定义的流程审批能力。Extensions扩展程序核心解决的是重定义的能力。今天DataWorks所提供的一些能力,可能并不符合各个企业具体的要求,在这种情况下,企业可以利用我们的扩展插件去定义符合自己业务情况的能力。一家互联网企业和传统行业在数据治理领域的要求一定是不一样的,这个时候可以通过扩展插件去定义符合自己要求的自定义的数据治理能力。比如有些企业有严格的代码上线流程,需要增加代码评审流程,通过扩展程序可以实现当用户单击提交节点时,流程进入自定义代码评审流程中,不直接提交到开发环境中进行验证,自定义评审流程通过后再提交至开发环境。最后,Migration迁移助手实现的就是各类任务迁移的能力,除了Oozie、Azkaban、Airflow等调度引擎,今年我们还新增了DolphinScheduler的迁移,并且我们即将把迁移助手开源,企业可以从平台与平台之间,云上与云下之间,进行方便迁入和迁出。数据治理不止一种方式,DataWorks提供的不仅仅是阿里巴巴数据治理的最佳实践,更希望通过DataWorks开放平台赋予我们的客户及合作伙伴更强的自定义能力,让各行各业可以通过工具平台更加高效地完成数据治理工作。
今年的云栖大会上,我们也有众多客户展现了他们利用DataWorks及各类大数据引擎实现的数字化转型最佳实践。友邦人寿基于阿里云搭建金融数据中台,承接了10倍业务流量的高峰,让数据处理效率提升20倍,企业整体算力成本节省达数百万。“非洲之王”传音互联有力支撑集团互联网业务,数据治理效率提升2-3倍,为集团95%以上的业务增长赋能,带领更多中国企业品牌走向全球新兴市场。哪吒汽车逐步完善数据治理与数据湖能力,依靠稳定可靠、性能卓越、弹性扩展的大数据平台,未来将支持超过60万+量汽车,数PB级别的数据分析。三七互娱以DataOps理念激活数据价值,建设自动化、敏捷、价值导向的数据体系,解决数据获取难、业务响应慢、数据场景单一等数据消费的痛点,利用数据驱动运营精细化。数据治理是一个庞大的话题,涉及的方面非常多。但是还是回到我们的主题,效率优先,回归工具为人服务的本质。今年我们发布全链路数据治理的一些新功能,就是从人的视角出发,希望通过工具平台,让企业的开发人员减少低效的重复劳动,让数据人员的工作效率保持螺旋式的上升,全方位提升企业数据效率,为企业降本增效。