突破自我—一文看尽DataWorks全新升级以及在城市大脑的广泛应用

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
简介: 在2018年云栖大会·深圳峰会的专有云专场中,来自阿里云的大数据专家张辉(士诚)为现场的听众带来了题为《DataWorks全新升级以及在城市大脑的广泛应用》的技术分享。在本次分享中,士诚重点阐述DataWorks概述、DataWorks核心能力升级和DataWorks在城市大脑中的应用三个方面。

2018年云栖大会·深圳峰会的专有云专场中,来自阿里云的大数据专家张辉(士诚)为现场的听众带来了题为《DataWorks全新升级以及在城市大脑的广泛应用》的技术分享。在本次分享中,士诚重点阐述DataWorks概述、DataWorks核心能力升级和DataWorks在城市大脑中的应用三个方面。

数十款阿里云产品限时折扣中,赶快点击这里,领券开始云上实践吧!

直播视频回顾

以下内容根据现场分享整理而成。


DataWorks阐述

DataWorks(数据工场)是阿里云推出的大数据领域PaaS平台,是一站式的DW能力平台,提供数据集成、数据开发、数据管理、数据治理等全方位的产品服务,致力于帮助企业快速搭建大数据平台和IT数据中心,无需关注具体搭建过程中工具使用细节。

DataWorks大事记

a3976904355488c0e2a22c9bf477ffd268e2ca56 

DataWorks从诞生到现在经历了以下发展历程:

·2009年起,集团内部修炼8年内功:阿里集团内部率先使用DataWorks,目前阿里集团、蚂蚁金服、菜鸟等全集团以及各BU都在使用DataWorks进行内部数据开发和分析工作;也是集团小二居家旅行大促冲刺必备工具。

·2014年起,在公有云上修炼4年外功:开始在公有云上发布DataWorks2014年起支持御膳房,2015BASE平台发布,目前在公共云上,支持包括新浪微博、人人车、天弘基金等重要客户。

· 2015年起,在专有云上3年专攻:在2015DataWork第一次完成专有云输出,这也是阿里云大数据首次输出;次年1月份,数据平台正式上线;
·2017年起,正式走向世界,实现全球部署:在20174月份完成新加坡首发,截止目前,DataWorks在全球的12个地区为大数据用户提供服务;
·201710月,扎根政企:DataWorks对外首次亮相八大模块。

一路走来,DataWorks得了阿里集团内部和外界的一致认可,在20177月,数加平台获得国际软博会金奖。在20181月,首批入围阿里集团提效x10产品;同年3月,在 Forrester 公布的CDW排名中,高居全球第二。

DataWorks产品八大件

acad4c8c3192a3ae0fe82bdf6c4f05f1d6f864c3 

上图是17年公布的DataWorks八大件的产品架构图,DataWorks底层基于多种计算引擎,主要包括MaxComputeADS、图计算等;上层提供了从数据汇聚到数据研发,再到数据治理,最终到开放共享的全方位大数据服务平台,共孵化出了八个产品模块(又称八大件),包括数据集成、数据开发、监控运维、实时分析、数据资产管理、数据质量、数据安全和数据服务。目前在专有云中,八大产品模块均有能力对外输出,并且基于阿里自身的平台管理的公共租户账号和Feed实现插件化输出,用户可以单独去购买八大件中的任一模块进行组合使用。

 

核心能力升级

下面介绍一下最近一段时间DataWorks核心能力升级的部分。

数据开发

e7d2a01f2ab06d71d511c20efdc030262d8ffffa 

首先来看一下数据开发功能。在DataWorks中,用户使用频率最高是写代码、做开发,DataWorks致力于做最好的WEB代码的IDE编辑器,因此针对数据开发功能,我们做了大量的升级和改进工作。目前,DataWorks编辑器已经是业内WEB端编辑器中的领头羊,基本能做到和本地IDE一致体验。这里摘取了数据开发方面升级的九个较为重要的功能:

1、MaxCompute SQL预编译、2.0语法全面支持,预编译功能使得用户在开发代码过程中可以快速发现错误,而无需将任务提供到最底层的计算引擎后才能发现错误。例如,用户不确定是否具有某个表的权限,在编写代码的过程中通过预编译就能识别出,无需提交到计算引擎后才发现这一错误;

2、编辑器语法错误提醒,显示错误信息;

3、MiniMap缩略图;

4、代码自动补全;

5、meta自动补全;

6、代码格式化,代码折叠;

7、编辑器代码搜索;

8、丰富的快捷键支持;

9、SQL杀器,SQL结构化展示。用户可以使用该功能对较长的SQL语句进行折叠和隐藏,同时可以使用DataWorks提供的结构化功能快速理解对应SQL代码所实现的具体功能。

7d1d4dea5d1dc827d15ada428a1595092e68c6f8 

如上图所示,对于特别长的SQL语句,DataWorks提供了代码的格式化和折叠。对于代码的具体功能,可以使用DataWorks提供的结构化功能

数据集成

c4e01d2d310582ce1e5dccf77df42b68b0bd315f 

DataWorks已经支持了dataX400类异构数据源之间的数据同步。去年,又重点优化了跨网传输,重点解决了三个应用场景:

第一个场景是用户自建IDC机房和数据中心数据同步,业内最常用的解决方案是拉专线或者是用硬盘拷贝同步等物理手段,而DataWorks数据集成提供了软件解决方案,直接通过互联网就可以实现两地的数据同步,在数据传输过程中实现了数据加密和压缩,提了高传输效率的同时保障数据的安全性,美柚等公司均是利用这种方式进行数据传输,日传输数据高达数百T比特;
第二个场景是国际间的数据同步,目前,DataWorks数据集成支持了海外12个节点之间的数据同步。国际之间网络状况一般较差,在数据集成功能中,特意开发一个内部专属协议,经过测试,整体数据同步速度提高5倍;
第三个场景是专有云内部,专有云内部经常存在网闸,导致网络之间不互通,对于网闸,DataWorks提供了数据集成的解决方案,实现网闸间数据相互传输。

去年我们做的第二个工作是完善了StreamX的整体升级。StreamX相对于dataX的区别在于它提供了实时的数据集成能力,在提供实时数据集成能力的基础上,DataWorks又在源和目标之间提供了丰富的数据转换功能,如身份证转换、字段增加删除转换等。

3d3698917862f3efb1932d07a8852572a2fe4187 

上图是DataWorks数据集成产品使用界面,整体操作界面更新成完全拖曳式操作,图示案例表示从Datahub数据源,最终将表输出到一张数据表中,在中间过程进行了加字段和JS字段变换操作,这种方式极大地降低了用户开发工作。

数据服务

DataWorks数据服务是去年开发的全新模块,该模块的功能是帮助用户实现数据API快速生成和注册服务。

dd7bbb441dbe5307419bed86b2186ae2c645b62d 

在实际工作中,数据API开发经常遇到。传统模式下,开发一个数据接口大约需要7步:1、准备数据库;2、开发数据库连接代码;3、开发API逻辑代码;4、开发API鉴权和流控逻辑;5、搭建HTTP服务器;6、部署API接口服务;7、服务运维,扩容缩容。

bdb8a82ad1c88d43b07a9ec1568d38d589399d95 

通过DataWorks提供的数据服务,开发一个数据接口可以缩减到2步:1、准备好数据库;2、在数据服务中配置/开发API逻辑代码。

56164430683eb6cad1612c3a5dc3f9254a27c1f5 

目前,DataWorks数据服务提供了两种数据接口开发模式:向导模式和脚本模式。

·向导模式:支持通过可视化配置,快速根据数据表生成API,它主要面向小白用户,易上手,非技术人员也可快速入门;但功能有限,只提供单表原生字段简单查询;
·脚本模式:支持通过SQL脚本,自定义数据API的查询逻辑,它主要面向高阶用户,提供自定义查询SQL功能,需要开发者才能使用;脚本模式功能强大,支持复杂条件查询、支持多表关联、支持聚合函数。

数据资源管理

716a37072ffce0476981b23c6d9520cbe94ea55b 

数据资源管理方面同样进行重点升级,目前覆盖政企全部数据资产类型,支持所有的结构化数据源(包括MySQLSQLserverORACLEMaxComputeRDS等)、非结构化数据(包括HabaseFTP以及阿里云OSS等)、API数据、模型数据以及标签数据。所有的数据资产进行一站式的统一管理,帮助政企类客户完整整体数据资产的梳理和维护,最后以数据资产大屏方式输出,供政府使用。再结合DataWorks自身的开发和集成能力,目前在数据资产内完成了数据血缘分析以及数据成本的整体控制等增强型操作。

数据安全

572ef40a3c6d61257c7dbf00b442be789dc7ff62 

在大数据中,数据安全是必须面对的问题。DataWorks除了自身多租户、数据授权以及字段授权管理等安全手段之外,在2017年和蚂蚁金服的数据安全团队合作推出了DataWorks数据保护伞模块,致力为企业提供安全、合规、智能的数据安全管家,重点解决了以下三个方面的问题:

·企业和政府的监管合规要求:对于企业,主要面临个人隐私数据保护、数据出境、数据交换等挑战,数据保护伞针对这些挑战分别了提供了隐私数据识别及脱敏、数据导出监控、数据发布脱敏机同态加密等安全解决方案,满足数据资产保护的合规性;

·数据管理层面的安全诉求:数据管理层面主要面临包括数据如何分类分级、数据管理策略难落地、无法掌握敏感数据分布等挑战,数据保护伞针对性地提供了数据智能分类分级、一键式数据安全策略优化、敏感数据分布热力图等解决方案;
·数据风险及其泄露控制:对于明文敏感数据展示、数据泄露以及敏感数据违规操作难以发现等挑战,数据保护伞提供了脱敏SDK\IDE脱敏集成,用户可以自定义数据脱敏类型、数据导出监控与风险识别、智能数据操作风险识别等解决方案,通过智能数据风险识别,提升数据安全运行效率。

 

城市大脑

下面来看一下DataWorks在城市大脑的地位以及相关事件。

3ff8527cc531170532dcab8005c270c18d3dfe8d 

城市大脑需要一套高保障的供血系统,DataWorks在城市大脑中被称为数据资源平台,是城市大脑三大核心支柱平台之一,帮助城市大脑完成整体的数据汇聚、分析工作。

数据资源平台在城市大脑中主要包括以下几个功能:

  • ·全域数据汇聚,汇聚城市中所有的基础数据以及数据集成;
  • ·数据融合加工,完成整体数仓模型规范以及ETL开发规范;
  • ·数据治理体系,提供数据质量、安全、稳定性保障以及数据资产管理;
  • ·数据开放共享,完成对上层城市大脑数据应用的支撑。

466f0b858b0c6cd3536b69bd1538641f1b7e6cca 

在城市大脑中,我们提出了1478的概念,是指1个平台、4大体系、7项标准和8套工具。其中1个平台是指数据资源平台(DataWorks);4大体系是指全域数据汇聚技术、数据融合加工工艺、数据治理方法体系和数据开放共享机制;7项标准包括基础源数据标准、DW主题模型规范、ETL开发规范、数据资源目录规范、数据质量规范、数据安全规范和数据开放共享服务规范;8套工具包括数据集成工具、数据开发IDE、数据建模工具、数据资产管理系统、数据质量管理系统、数据安全管理系统、稳定性监控运维和数据服务。

 

具体案例分析

最后我们结合两个具体的案例来分享DataWorks在实际生活中的应用。

案例一:政务共享交换平台

5c5e35587368fd58b6a849b06f51beb2342f0d2b 

政务共享交换平台主要是依靠于数据仓库完成以后,依靠数据服务实现数据交换的共享支撑。图中所示政务数据共享平台和政务数据开放平台区别在于:前者是指政务各个委办局(如工商局、交通局)之间内部进行数据交换的平台;后者是政府对社会公开数据的平台。

通过数据API服务将各个委办局的业务系统中的数据库表快速生成数据API,再通过数据服务内部的API网关服务提供API的鉴权、流控、调用等SDK服务;再根据API的开放属性,分别进入政府数据共享平台及数据开放平台,供各委办局或社会公众订阅和调用。

案例二:某城市大脑架构

e3e0a6529225f987a54642e010c47f96f7ff13e4 

上图是某城市大脑数据资源平台数据资源建设的架构图,该架构基于DataWorks数据治理体系,可以分为城市数据资源汇聚、融合数据、数据资产三部分:

·城市数据资源汇聚,如图底部所示,将不同来源的数据汇聚到数据中心,融合人口、地理信息等基础数据库,信用、权力等主题数据库,交通、环保、安监等领域数据库,教育、健康、金融等枢纽信息以及互联网等外部数据进行下一步处理;
·融合数据,通过使用DataWorks数据开发模块进行数据进行深度挖掘和再利用,实现从数据到智慧的价值转换。围绕数据挖掘、知识运用、业务建模、融合分析、规则引擎、可视化展现等方面对初步处理过的数据进行深度开发利用,形成知识和决策辅助信息。
·数据资产管理,围绕存储、处理、交换、共享等环节实现信息汇集和数据治理,强化数据质量、数据安全以及数据监控等,为数据资源的开发利用做好一级准备。
本文由云栖志愿小组刘崇鑫整理编辑


关于分享者:

张辉花名士诚,阿里云大数据专家 DataWorks产品负责人。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
3月前
|
数据采集 DataWorks 数据挖掘
提升数据分析效率:DataWorks在企业级数据治理中的应用
【8月更文第25天】本文将探讨阿里巴巴云的DataWorks平台如何通过建立统一的数据标准、规范以及实现数据质量监控和元数据管理来提高企业的数据分析效率。我们将通过具体的案例研究和技术实践来展示DataWorks如何简化数据处理流程,减少成本,并加速业务决策。
439 54
|
11月前
|
SQL 人工智能 自然语言处理
【2023云栖】田奇铣:大模型驱动DataWorks数据开发治理平台智能化升级
随着大模型掀起AI技术革新浪潮,大数据也进入了与AI深度结合的创新时期。2023年云栖大会上,阿里云DataWorks产品负责人田奇铣发布了DataWorks Copilot、DataWorks AI增强分析、DataWorks湖仓融合数据管理等众多新产品能力,让DataWorks这款已经发展了14年的大数据开发治理平台产品,从一站式向智能化不断升级演进。
59303 8
|
6月前
|
SQL 运维 DataWorks
Flink CDC在阿里云DataWorks数据集成应用实践
本文整理自阿里云 DataWorks 数据集成团队的高级技术专家 王明亚(云时)老师在 Flink Forward Asia 2023 中数据集成专场的分享。
1418 2
Flink CDC在阿里云DataWorks数据集成应用实践
|
6月前
|
分布式计算 DataWorks 大数据
DataWorks报错问题之升级工作空间模式报错如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
6月前
|
DataWorks 数据处理
DataWorks基础版升级到专业版可能会对历史任务配置产生一定的影响
【1月更文挑战第3篇】DataWorks基础版升级到专业版可能会对历史任务配置产生一定的影响
51 0
|
6月前
|
SQL 运维 监控
DataWorks应用监控告警规则页面是什么?
DataWorks应用监控告警规则页面是什么?
57 0
|
运维 DataWorks 大数据
《被窝里的运维——DataWorks移动版公测-2020飞天大数据平台实战应用第一季》电子版地址
被窝里的运维——DataWorks移动版公测-2020飞天大数据平台实战应用第一季
153 0
《被窝里的运维——DataWorks移动版公测-2020飞天大数据平台实战应用第一季》电子版地址
|
机器学习/深度学习 存储 人工智能
阿里云ODPS升级为一体化大数据平台,满足用户多元化数据计算需求
为满足用户多元化数据计算需求,阿里云ODPS升级为一体化大数据平台。升级后的ODPS支持大规模批量计算、实时分析等服务,提供实时流式计算、机器学习等多种计算能力,可同时调度超10万台以上服务器规模进行并行计算。从09年开始自研的ODPS 平台也是目前中国应用最为广泛的一体化大数据平台。
阿里云ODPS升级为一体化大数据平台,满足用户多元化数据计算需求
|
DataWorks 大数据
《DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季》电子版地址
DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季
133 0
《DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季》电子版地址
|
DataWorks 大数据 调度
《DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季》电子版地址
DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季
122 0
《DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季》电子版地址

热门文章

最新文章

  • 1
    DataWorks操作报错合集之DataWorks任务异常 报错: GET_GROUP_SLOT_EXCEPTION 该怎么处理
    104
  • 2
    DataWorks操作报错合集之DataWorksUDF 报错:evaluate for user defined function xxx cannot be loaded from any resources,该怎么处理
    104
  • 3
    DataWorks操作报错合集之在DataWorks中,任务流在调度时间到达时停止运行,是什么原因导致的
    106
  • 4
    DataWorks操作报错合集之DataWorks ODPS数据同步后,timesramp遇到时区问题,解决方法是什么
    90
  • 5
    DataWorks操作报错合集之DataWorks配置参数在开发环境进行调度,参数解析不出来,收到了 "Table does not exist" 的错误,该怎么处理
    86
  • 6
    DataWorks操作报错合集之DataWorks中udf开发完后,本地和在MaxCompute的工作区可以执行函数查询,但是在datawork里报错FAILED: ODPS-0130071:[2,5],是什么原因
    100
  • 7
    DataWorks操作报错合集之DataWorks提交失败: 提交节点的源码内容到TSP(代码库)失败:"skynet_packageid is null,该怎么解决
    111
  • 8
    DataWorks操作报错合集之DataWorks在同步mysql时报错Code:[Framework-02],mysql里面有个json类型字段,是什么原因导致的
    150
  • 9
    DataWorks操作报错合集之DataWorks集成实例绑定到同一个vpc下面,也添加了RDS的IP白名单报错:数据源配置有误,请检查,该怎么处理
    84
  • 10
    DataWorks操作报错合集之在 DataWorks 中运行了一个 Hologres 表的任务并完成了执行,但是在 Hologres 表中没有看到数据,该怎么解决
    120