在2018年云栖大会·深圳峰会的专有云专场中,来自阿里云的大数据专家张辉(士诚)为现场的听众带来了题为《DataWorks全新升级以及在城市大脑的广泛应用》的技术分享。在本次分享中,士诚重点阐述DataWorks概述、DataWorks核心能力升级和DataWorks在城市大脑中的应用三个方面。
数十款阿里云产品限时折扣中,赶快点击这里,领券开始云上实践吧!
以下内容根据现场分享整理而成。
DataWorks阐述
DataWorks(数据工场)是阿里云推出的大数据领域PaaS平台,是一站式的DW能力平台,提供数据集成、数据开发、数据管理、数据治理等全方位的产品服务,致力于帮助企业快速搭建大数据平台和IT数据中心,无需关注具体搭建过程中工具使用细节。
DataWorks大事记
DataWorks从诞生到现在经历了以下发展历程:
·从2009年起,集团内部修炼8年内功:阿里集团内部率先使用DataWorks,目前阿里集团、蚂蚁金服、菜鸟等全集团以及各BU都在使用DataWorks进行内部数据开发和分析工作;也是集团小二居家旅行大促冲刺必备工具。
·从2014年起,在公有云上修炼4年外功:开始在公有云上发布DataWorks,2014年起支持御膳房,2015年BASE平台发布,目前在公共云上,支持包括新浪微博、人人车、天弘基金等重要客户。
一路走来,DataWorks得了阿里集团内部和外界的一致认可,在2017年7月,数加平台获得国际软博会金奖。在2018年1月,首批入围阿里集团提效x10产品;同年3月,在 Forrester 公布的CDW排名中,高居全球第二。
DataWorks产品八大件
上图是17年公布的DataWorks八大件的产品架构图,DataWorks底层基于多种计算引擎,主要包括MaxCompute、ADS、图计算等;上层提供了从数据汇聚到数据研发,再到数据治理,最终到开放共享的全方位大数据服务平台,共孵化出了八个产品模块(又称八大件),包括数据集成、数据开发、监控运维、实时分析、数据资产管理、数据质量、数据安全和数据服务。目前在专有云中,八大产品模块均有能力对外输出,并且基于阿里自身的平台管理的公共租户账号和Feed实现插件化输出,用户可以单独去购买八大件中的任一模块进行组合使用。
核心能力升级
下面介绍一下最近一段时间DataWorks核心能力升级的部分。
数据开发
首先来看一下数据开发功能。在DataWorks中,用户使用频率最高是写代码、做开发,DataWorks致力于做最好的WEB代码的IDE编辑器,因此针对数据开发功能,我们做了大量的升级和改进工作。目前,DataWorks编辑器已经是业内WEB端编辑器中的领头羊,基本能做到和本地IDE一致体验。这里摘取了数据开发方面升级的九个较为重要的功能:
1、MaxCompute SQL预编译、2.0语法全面支持,预编译功能使得用户在开发代码过程中可以快速发现错误,而无需将任务提供到最底层的计算引擎后才能发现错误。例如,用户不确定是否具有某个表的权限,在编写代码的过程中通过预编译就能识别出,无需提交到计算引擎后才发现这一错误;
2、编辑器语法错误提醒,显示错误信息;
3、MiniMap缩略图;
4、代码自动补全;
5、表meta自动补全;
6、代码格式化,代码折叠;
7、编辑器代码搜索;
8、丰富的快捷键支持;
9、长SQL杀器,SQL结构化展示。用户可以使用该功能对较长的SQL语句进行折叠和隐藏,同时可以使用DataWorks提供的结构化功能快速理解对应SQL代码所实现的具体功能。
如上图所示,对于特别长的SQL语句,DataWorks提供了代码的格式化和折叠。对于代码的具体功能,可以使用DataWorks提供的结构化功能
数据集成
DataWorks已经支持了dataX,400类异构数据源之间的数据同步。去年,又重点优化了跨网传输,重点解决了三个应用场景:
去年我们做的第二个工作是完善了StreamX的整体升级。StreamX相对于dataX的区别在于它提供了实时的数据集成能力,在提供实时数据集成能力的基础上,DataWorks又在源和目标之间提供了丰富的数据转换功能,如身份证转换、字段增加删除转换等。
上图是DataWorks数据集成产品使用界面,整体操作界面更新成完全拖曳式操作,图示案例表示从Datahub数据源,最终将表输出到一张数据表中,在中间过程进行了加字段和JS字段变换操作,这种方式极大地降低了用户开发工作。
数据服务
DataWorks数据服务是去年开发的全新模块,该模块的功能是帮助用户实现数据API快速生成和注册服务。
在实际工作中,数据API开发经常遇到。传统模式下,开发一个数据接口大约需要7步:1、准备数据库;2、开发数据库连接代码;3、开发API逻辑代码;4、开发API鉴权和流控逻辑;5、搭建HTTP服务器;6、部署API接口服务;7、服务运维,扩容缩容。
通过DataWorks提供的数据服务,开发一个数据接口可以缩减到2步:1、准备好数据库;2、在数据服务中配置/开发API逻辑代码。
目前,DataWorks数据服务提供了两种数据接口开发模式:向导模式和脚本模式。
数据资源管理
数据资源管理方面同样进行重点升级,目前覆盖政企全部数据资产类型,支持所有的结构化数据源(包括MySQL、SQLserver、ORACLE、MaxCompute、RDS等)、非结构化数据(包括Habase、FTP以及阿里云OSS等)、API数据、模型数据以及标签数据。所有的数据资产进行一站式的统一管理,帮助政企类客户完整整体数据资产的梳理和维护,最后以数据资产大屏方式输出,供政府使用。再结合DataWorks自身的开发和集成能力,目前在数据资产内完成了数据血缘分析以及数据成本的整体控制等增强型操作。
数据安全
在大数据中,数据安全是必须面对的问题。DataWorks除了自身多租户、数据授权以及字段授权管理等安全手段之外,在2017年和蚂蚁金服的数据安全团队合作推出了DataWorks数据保护伞模块,致力为企业提供安全、合规、智能的数据安全管家,重点解决了以下三个方面的问题:
·企业和政府的监管合规要求:对于企业,主要面临个人隐私数据保护、数据出境、数据交换等挑战,数据保护伞针对这些挑战分别了提供了隐私数据识别及脱敏、数据导出监控、数据发布脱敏机同态加密等安全解决方案,满足数据资产保护的合规性;
城市大脑
下面来看一下DataWorks在城市大脑的地位以及相关事件。
城市大脑需要一套高保障的供血系统,DataWorks在城市大脑中被称为数据资源平台,是城市大脑三大核心支柱平台之一,帮助城市大脑完成整体的数据汇聚、分析工作。
数据资源平台在城市大脑中主要包括以下几个功能:
-
·全域数据汇聚,汇聚城市中所有的基础数据以及数据集成;
-
·数据融合加工,完成整体数仓模型规范以及ETL开发规范;
-
·数据治理体系,提供数据质量、安全、稳定性保障以及数据资产管理;
-
·数据开放共享,完成对上层城市大脑数据应用的支撑。
在城市大脑中,我们提出了1478的概念,是指1个平台、4大体系、7项标准和8套工具。其中1个平台是指数据资源平台(DataWorks);4大体系是指全域数据汇聚技术、数据融合加工工艺、数据治理方法体系和数据开放共享机制;7项标准包括基础源数据标准、DW主题模型规范、ETL开发规范、数据资源目录规范、数据质量规范、数据安全规范和数据开放共享服务规范;8套工具包括数据集成工具、数据开发IDE、数据建模工具、数据资产管理系统、数据质量管理系统、数据安全管理系统、稳定性监控运维和数据服务。
具体案例分析
最后我们结合两个具体的案例来分享DataWorks在实际生活中的应用。
案例一:政务共享交换平台
政务共享交换平台主要是依靠于数据仓库完成以后,依靠数据服务实现数据交换的共享支撑。图中所示政务数据共享平台和政务数据开放平台区别在于:前者是指政务各个委办局(如工商局、交通局)之间内部进行数据交换的平台;后者是政府对社会公开数据的平台。
通过数据API服务将各个委办局的业务系统中的数据库表快速生成数据API,再通过数据服务内部的API网关服务提供API的鉴权、流控、调用等SDK服务;再根据API的开放属性,分别进入政府数据共享平台及数据开放平台,供各委办局或社会公众订阅和调用。
案例二:某城市大脑架构
上图是某城市大脑数据资源平台数据资源建设的架构图,该架构基于DataWorks数据治理体系,可以分为城市数据资源汇聚、融合数据、数据资产三部分:
关于分享者:
张辉,花名士诚,阿里云大数据专家 DataWorks产品负责人。