摘要
数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有了很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。
视频分享地址:https://v.qq.com/iframe/player.html?vid=o0547tqlw0z&width=670&height=376.875&auto=0
数据工厂解决了云上从数据的采集整合,到数据加工、分析与管理,再到数据应用和消费的整个流程。
上图中红色标注部分是数据集成的位置。数据集成既是把数据采到数据平台部分的数据通道,也是数据出去的通道。
中间就是所有数据的清洗转换、调度、OLAP分析以及数据挖掘的常用工具和模块。
最底层是元数据管理,是一个至关重要的模块。
传统数据处理有时候会叫做数仓,数仓是偏离线的。现在普遍叫数据平台,数据平台更强调它和在线系统的融合打通。
如上图所示,极简罗汉图构建的体系就是数据工厂。大家要自己搭建一个大数据开发平台的话,这些是基础模块,也是必要的组件。
最上面是调度,两侧有开发测试的环境,和整个大数据开发的运维管理。中间的“神经系统”是元数据,没有元数据所有东西都是无效的。再往下是整个大数据的计算引擎,阿里巴巴早就已经用完全自研的MaxCompute以及ADS等一系列的计算引擎替换了开源部分。最底下是数据集成,决定了数据怎么进来怎么出去。
上图所示是数据集成的使用过程。从选择数据源、选择目标,到字段映射,然后进行通道流控的配置,最后就是看日志。
现在的数据集成已经超出了传统数据集成的范畴,也就是说传统数据集成的“屁股”是坐在数据仓库上的,面向的是业务数据库,对于多媒体文件或整个任意文件的支持还是比较少。现在非结构化数据的比重越来越大,尤其在阿里云上看到这种趋势非常明显。所以我们做了任意二进制文件的支持和视频文件的支持。
跨公网的数据传输是在云时代下一个非常重要的能力。当数据不在同城机房的时候,要想做一个简单的数据集成都需要跨公网把数据传输到统一的数据仓库中。
DataX是阿里巴巴集团内部被广泛使用的离线数据同步工具/平台,实现包括MySQL、Oracle、HDFS、Hive、OceanBase、HBase、OTS、ODPS等各种异构数据源之间高效的数据同步功能。
DataX是一个插件式架构,可以插拔,支持读写插件。我们会坚持开源,现在已经有了一定的影响力。它的性能很好,功能和稳定性远超sqoop。最近使用的客户案例有微博、金立、斗鱼直播,效果突出。
单机首先要把任务进行拆分,然后做到并发。也就是大家能看到的开源版本主要能力就在这里。
我们服务端的模式支持水平扩展。
阿里内部在大数据这一块数据采集和传输的主打工具就是DataX,所以它有更多的考虑。流控这方面操作还是有些难度的,很多开源工具不提供这种能力。
数据集成在处理的时候有脏数据管理并记录,而且还有基于规则的判断,自动把日志打出来,做基本的质量控制。
任意位置是指跨公网;任意存储是数据集成一开始就坚持的一种能力;还有正交数据采集传输。
图中画的是从用户机房到阿里云上的VPC。在阿里云上一旦引入VPC就会使网络环境变得很复杂,当然也带来很多好处。但是复杂性尤其是对数据集成这种工具的体验是会产生很大影响的。
我们为了突破这些也做了很多工作,现在我们可以从任意位置打透用户的机房以及阿里云上用户自己的VPC。
每天有11万+作业运行在DI平台之上,DI每天的同步数据量达到10.2TB。每天的同步记录条数达到近500亿,还在持续增长中。阿里自从做数据平台以来,数据集成一直是它的主力工具。
数加.数据集成能力总结
支持的类型多。支持任意主流格式和二进制数据、音视频、多媒体。
传输快。在传输方面我们做了断点续传、分块传输和网络协议加速等工作,现在也取得了一些效果。
网络通。能够穿透任意复杂的网络环境,例如从VPC到Region,还有跨公网。
一站式迁移。现在在接触很多大客户的时候,很多客户不想再继续自己维护hadoop了,希望我们能完整地一键把整个hadoop体系迁移到云上,以及把DB迁移到云上。在这种情况下我们可以做到一些一站式的服务。
还有两个更好的能力就是支持实时采集传输和支持客户端、Web端采集。
我希望能把数据集成做到极致,做得更大。
以上就是我今天的分享,谢谢大家!
阿里巴巴大数据-玩家社区 https://yq.aliyun.com/teams/6/
---阿里大数据博文,问答,社群,实践,有朋自远方来,不亦说乎……