DataWorks:下一代智能数据工场

本文涉及的产品
数据安全中心,免费版
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 2017云栖大会dataworks专场,数加平台&DataWorks研发负责人王贲带来dataworks的演讲。主要讲了dataworks缘起何处,进而讲解了数据集成和数据研发,着重介绍了数据治理,最后作了简要总结。

2017云栖大会dataworks专场,数加平台&DataWorks研发负责人王贲带来dataworks的演讲。主要讲了dataworks缘起何处,进而讲解了数据集成和数据研发,着重介绍了数据治理,最后作了简要总结。
以下是精彩内容整理:

缘起

阿里巴巴从2009年开始从hadoop搭建数据平台体系,数据工场与以前体系一脉相承,有了数据工场后,大家不用再自建数据工场,数据平台会建立一个云服务。
从自建水电煤厂->水电煤成为基础设施服务;从自建IT数据中心->使用云计算服务,云计算本质上解决了运维问题;从自建大数据平台->使用云数据平台服务;数据工场(DataWorks),你值得拥有!

1


数加平台想要做的就是普惠大数据,因为搭建一个数据平台需要一定成本。数据平台不仅仅是搭建一套hadoop平台,阿里也是在hadoop平台基础上自研了Maxcompute,hadoop并不是数仓原配,除了计算平台外,还包括基本调度原数据系统、数据抽取、数据存储、数据传输等周边工具更加考验数据团队,比如数据集成、数据研发、数据质量和数据安全等很多是需要公司到达一定规模才需要建设的。

DataWorks大事记

  • 2009年至今——8年内功(集团):阿里集团、蚂蚁金服、菜鸟等全集团以及各BU支持。是集团小二居家旅行大促冲刺必备。
  • 2013年至今——4年外功(公共云):2013年3月支持御膳房,2015年1月BASE平台发布,支持包括:新浪微博、人人车、天弘基金等重要客户。
  • 2015年至今——3年专政(专有云):2015年第一次完成专有云输出,也是阿里云大数据第一次输出,2016年1月,数加平台上线。
  • 2017年至今——扎根政企(大脑):首次亮相八大模块,2017年7月,数加平台获得国际软博会金奖。该奖项也是中国最具影响力的软件榜单,拥有杨芙清(软件学科奠基人)、倪光南(汉字输入首创者)、侯朝焕(系统芯片领军人物)、邬贺铨(光纤传送网和宽带信息网奠基人之一)等全院士的评审阵容。阿里云数加平台从国内外200份软件作品中脱颖而出,凭借世界级的技术水平和普惠科技的践行理念,获得评委青睐。

DataWorks对阿里集团业务的支撑

2


图中列出了阿里大数据平台涉及的所有领域,做到:
存:数据大集中,MaxCompute统一存储和计算;
通:统一规范,打通各个业务部门,推动数据开放和交换;
用:数据化运营,运营数据;

数据工场(DataWorks)产品架构

3


数据工场架构如图,底层是计算平台,上面有gateway集群,再向上从基础的数据集成调度数据治理的几大件。

4


DataWorks-八大模块-数据资源平台如图,底部为阿里主打的几个计算平台,数据汇聚即数据集成,比如阿里内部每天吞吐量为几百T数据,数据产品的数据开发、监控运维、资产管理质量安全等,平台管理采用多租户模型、账号权限体系,以及计量计费。
1)与其他BU合作方合作方式。说明:有开放合作方式且可行。
2)与其他产品也有重合。A:规划中的与已有产品有重合的点。B:可差异化合作的点,突出对方现在有两个差异化点,再造全部的轮子。

数据集成

5


数据集成的能力如图,我们可以做到任意数据源、任意格式、任意位置、任意复杂网络环境下的高效数据采集传输。数据集成dataX客户端是开源的,滴滴和爱奇艺都在使用做数据同步,它支持数据源特别多,是正交关系,我们是一个插件式架构,任意新加一个数据源,再自己写一套读写插件提交即可,读写插件实现并不难,许多人都在这样使用融入体系。
我们支持结构化数据到非结构化数据、二进制数据,我们解决了大量网络环境复杂度问题,还有跨公网传输、跨国传输,如果熟悉商用数据仓库软件,就会发现其中的好处,跨公网是指自家机房上传数据到阿里云,我们会做数据的断点续传、分块压缩、协议层优化,尤其对于跨国网络、跨运营商网络,速度提升几十倍都是可能的。我们既支持离线数据,又支持实时的binlog解析。

数据研发

6


阿里调度有数百万规模,位居全国第一。数据同步sql、mr、shell和机器学习,我们把机器学习和大数据开发任务做成一个有向无环图进行任务调度。

7


监控告警和智能预测如图,阿里内部有一个基线机制,很多数据的产出必须要强保障,很多任务影响线上生产,出问题后果很严重。如果6点一定要产出任务,前面可能经历了几十个节点,任意一个环节出问题,后面就产出不了,这就需要智能预测机制,它会根据历史经验做一些预判,当A失败时,每一步最多能够等多久,都能计算出来,给我们充足时间处理任务。

数据治理

8


元数据中心分为离线和实时统一,有了统一的元数据中心才能从智能监控告警到数据治理到数据血缘探查,包括数据地图和元数据服务。

9


数据质量帮助覆盖数据处理全链路数据质量监控。具体如下:
源数据清洗规则,有效过滤源头脏数据;
10+万条监控规则,全方位监测数据质量;
监控系统平均每天拦截脏数据上百次,每年避免数据故障数以千计;
源端数据变更,可自动分析受影响方并提前通知;
数据质量问题通过线上系统流转和解决;

10


图为云上数据流转全链路保护方案。我们是个开放的体系,数据安全要求很高,因此有数据安全保护伞这样一个单独模块,这个模块是可以集成在dataworks里面整合一起使用。

总结&展望

很多公司未必有必要自己建立数据平台,因为投入成本巨大,十多年的经验我们发现一个规律,一个数据平台的核心要件就是计算平台、元数据、数据集成、调度、数据研发和数据治理。调度相当于大脑,元数据相当于脊髓,数据集成是数据的IO,计算平台是身体,数据研发和数据治理相当于两条腿。
未来,我们希望构建三个工场、一个市场,即数据工场(DataWorks)、智能工程(AIWorks)、应用工程(AppWorks)和数据市场(DataMarket)。

11


数据服务体系如图,其中数据交换服务是我们目前在公共云和专有云想要做的一些探索,数据交换服务除了多租户数据授权服务,还有数据安全交换区服务;数据开放服务包括交互式数据服务引擎,数据API网关服务,数据API授权鉴权服务。基于这些基础设施,我们会提供数据交换共享平台,也会提供基础大数据门户。
DataWorks提供三种数据服务,具体包括:
  • API服务:提供API托管、API授权鉴权及API管理等功能服务,并一键对接数据市场;
  • 数据服务:提供快速将数据表生成API接口的服务,以对外提供调用;并直接对接API服务;
  • 应用服务:提供基于Docker容器的轻量化应用部署托管服务,并直接对接数据市场。

    12


数据分享交换平台如图,除了传统的数据交换技术积累,我们还探索了基于区块链的数据交易存证和溯源技术。

13


以上是DataWorks典型客户与合作伙伴,未来,dataworks将给大家带来更多期待。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
4月前
|
SQL DataWorks 监控
DataWorks产品使用合集之怎么针对表中已经存在的数据进行更新
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
DataWorks产品使用合集之怎么针对表中已经存在的数据进行更新
|
6天前
|
DataWorks 搜索推荐 数据挖掘
DataWorks: 驾驭数据浪潮,解锁用户画像分析新纪元
本文详细评测了DataWorks产品,涵盖最佳实践、用户体验、与其他工具对比及Data Studio新功能。内容涉及用户画像分析、数据管理作用、使用过程中的问题与改进建议,以及Data Studio的新版Notebook环境和智能助手Copilot的体验。整体评价肯定了DataWorks在数据处理和分析上的优势,同时也指出了需要优化的地方。
74 24
|
11天前
|
DataWorks 搜索推荐 大数据
聊聊DataWorks——这个一站式智能大数据开发治理平台
聊聊DataWorks——这个一站式智能大数据开发治理平台
40 2
|
4月前
|
DataWorks 监控 安全
DataWorks产品使用合集之使用数据洞察过程中经常出现超时是什么导致的
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
存储 DataWorks 安全
DataWorks产品使用合集之数据视图如何创建
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
数据采集 DataWorks 数据挖掘
提升数据分析效率:DataWorks在企业级数据治理中的应用
【8月更文第25天】本文将探讨阿里巴巴云的DataWorks平台如何通过建立统一的数据标准、规范以及实现数据质量监控和元数据管理来提高企业的数据分析效率。我们将通过具体的案例研究和技术实践来展示DataWorks如何简化数据处理流程,减少成本,并加速业务决策。
506 54
|
4月前
|
SQL 分布式计算 DataWorks
利用DataWorks构建高效数据管道
【8月更文第25天】本文将详细介绍如何使用阿里云 DataWorks 的数据集成服务来高效地收集、清洗、转换和加载数据。我们将通过实际的代码示例和最佳实践来展示如何快速构建 ETL 流程,并确保数据管道的稳定性和可靠性。
211 56
|
4月前
|
数据采集 存储 分布式计算
构建智能数据湖:DataWorks助力企业实现数据驱动转型
【8月更文第25天】本文将详细介绍如何利用阿里巴巴云的DataWorks平台构建一个智能、灵活、可扩展的数据湖存储体系,以帮助企业实现数据驱动的业务转型。我们将通过具体的案例和技术实践来展示DataWorks如何集成各种数据源,并通过数据湖进行高级分析和挖掘,最终基于数据洞察驱动业务增长和创新。
280 53
|
4月前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之ODPS数据怎么Merge到MySQL数据库
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
DataWorks 关系型数据库 MySQL
DataWorks产品使用合集之mysql节点如何插入数据
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。

热门文章

最新文章

  • 1
    DataWorks操作报错合集之DataWorks任务异常 报错: GET_GROUP_SLOT_EXCEPTION 该怎么处理
    112
  • 2
    DataWorks操作报错合集之DataWorksUDF 报错:evaluate for user defined function xxx cannot be loaded from any resources,该怎么处理
    110
  • 3
    DataWorks操作报错合集之在DataWorks中,任务流在调度时间到达时停止运行,是什么原因导致的
    106
  • 4
    DataWorks操作报错合集之DataWorks ODPS数据同步后,timesramp遇到时区问题,解决方法是什么
    96
  • 5
    DataWorks操作报错合集之DataWorks配置参数在开发环境进行调度,参数解析不出来,收到了 "Table does not exist" 的错误,该怎么处理
    99
  • 6
    DataWorks操作报错合集之DataWorks中udf开发完后,本地和在MaxCompute的工作区可以执行函数查询,但是在datawork里报错FAILED: ODPS-0130071:[2,5],是什么原因
    111
  • 7
    DataWorks操作报错合集之DataWorks提交失败: 提交节点的源码内容到TSP(代码库)失败:"skynet_packageid is null,该怎么解决
    120
  • 8
    DataWorks操作报错合集之DataWorks在同步mysql时报错Code:[Framework-02],mysql里面有个json类型字段,是什么原因导致的
    154
  • 9
    DataWorks操作报错合集之DataWorks集成实例绑定到同一个vpc下面,也添加了RDS的IP白名单报错:数据源配置有误,请检查,该怎么处理
    88
  • 10
    DataWorks操作报错合集之在 DataWorks 中运行了一个 Hologres 表的任务并完成了执行,但是在 Hologres 表中没有看到数据,该怎么解决
    126