阿里巴巴下一代数据集成技术-阿里云开发者社区

开发者社区> 阿里巴巴大数据计算> 正文

阿里巴巴下一代数据集成技术

简介: 数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有了很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。

摘要

数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有了很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。

986c61c7f38883d3a0de1b05d5477f2c89dadbd1

视频分享地址:https://v.qq.com/iframe/player.html?vid=o0547tqlw0z&width=670&height=376.875&auto=0


数据工厂

85ca00e556454d2c55ff8eafca2008b5edab5ff4


数据工厂解决了云上从数据的采集整合,到数据加工、分析与管理,再到数据应用和消费的整个流程。


上图中红色标注部分是数据集成的位置。数据集成既是把数据采到数据平台部分的数据通道,也是数据出去的通道。


中间就是所有数据的清洗转换、调度、OLAP分析以及数据挖掘的常用工具和模块。


最底层是元数据管理,是一个至关重要的模块。


传统数据处理有时候会叫做数仓,数仓是偏离线的。现在普遍叫数据平台,数据平台更强调它和在线系统的融合打通。


cf9e339e5ab01eed38c95efc55a560644866741c


如上图所示,极简罗汉图构建的体系就是数据工厂。大家要自己搭建一个大数据开发平台的话,这些是基础模块,也是必要的组件。


最上面是调度,两侧有开发测试的环境,和整个大数据开发的运维管理。中间的“神经系统”是元数据,没有元数据所有东西都是无效的。再往下是整个大数据的计算引擎,阿里巴巴早就已经用完全自研的MaxCompute以及ADS等一系列的计算引擎替换了开源部分。最底下是数据集成,决定了数据怎么进来怎么出去。


数据集成

79393555afce5a941d73c30c933ff459f0520de0


上图所示是数据集成的使用过程。从选择数据源、选择目标,到字段映射,然后进行通道流控的配置,最后就是看日志。


625c0593d2e9938264051b797dc295f17f0d84d8


现在的数据集成已经超出了传统数据集成的范畴,也就是说传统数据集成的“屁股”是坐在数据仓库上的,面向的是业务数据库,对于多媒体文件或整个任意文件的支持还是比较少。现在非结构化数据的比重越来越大,尤其在阿里云上看到这种趋势非常明显。所以我们做了任意二进制文件的支持和视频文件的支持。


跨公网的数据传输是在云时代下一个非常重要的能力。当数据不在同城机房的时候,要想做一个简单的数据集成都需要跨公网把数据传输到统一的数据仓库中。


数据集成agent-datax

DataX是阿里巴巴集团内部被广泛使用的离线数据同步工具/平台,实现包括MySQL、Oracle、HDFS、Hive、OceanBase、HBase、OTS、ODPS等各种异构数据源之间高效的数据同步功能。


DataX是一个插件式架构,可以插拔,支持读写插件。我们会坚持开源,现在已经有了一定的影响力。它的性能很好,功能和稳定性远超sqoop。最近使用的客户案例有微博、金立、斗鱼直播,效果突出。


028434d711c59e7ccf9e2f57ce6d8207878606d8


单机首先要把任务进行拆分,然后做到并发。也就是大家能看到的开源版本主要能力就在这里。


140609c27c70f764623c7e351a1edcf4458344c4


我们服务端的模式支持水平扩展。


a57254ce18fd840f383b7ddc15e9d2397a349587


阿里内部在大数据这一块数据采集和传输的主打工具就是DataX,所以它有更多的考虑。流控这方面操作还是有些难度的,很多开源工具不提供这种能力。


d9123e9f9ff57d4b5911f1fbd5f63ffce069155e


数据集成在处理的时候有脏数据管理并记录,而且还有基于规则的判断,自动把日志打出来,做基本的质量控制。


8d5c477db0808df6d9d5265459de66b69f65a544


任意位置是指跨公网;任意存储是数据集成一开始就坚持的一种能力;还有正交数据采集传输。


图中画的是从用户机房到阿里云上的VPC。在阿里云上一旦引入VPC就会使网络环境变得很复杂,当然也带来很多好处。但是复杂性尤其是对数据集成这种工具的体验是会产生很大影响的。


我们为了突破这些也做了很多工作,现在我们可以从任意位置打透用户的机房以及阿里云上用户自己的VPC。


数加.数据集成线上情况

每天有11万+作业运行在DI平台之上,DI每天的同步数据量达到10.2TB。每天的同步记录条数达到近500亿,还在持续增长中。阿里自从做数据平台以来,数据集成一直是它的主力工具。

数加.数据集成能力总结

支持的类型多。支持任意主流格式和二进制数据、音视频、多媒体。


传输快。在传输方面我们做了断点续传、分块传输和网络协议加速等工作,现在也取得了一些效果。


网络通。能够穿透任意复杂的网络环境,例如从VPC到Region,还有跨公网。


一站式迁移。现在在接触很多大客户的时候,很多客户不想再继续自己维护hadoop了,希望我们能完整地一键把整个hadoop体系迁移到云上,以及把DB迁移到云上。在这种情况下我们可以做到一些一站式的服务。


还有两个更好的能力就是支持实时采集传输和支持客户端、Web端采集。


我希望能把数据集成做到极致,做得更大。


以上就是我今天的分享,谢谢大家!


231917d3ccd8c2bd659b2da51d3fffe93a879a0a点击活动链接


阿里巴巴大数据-玩家社区 https://yq.aliyun.com/teams/6/

---阿里大数据博文,问答,社群,实践,有朋自远方来,不亦说乎……

bba01b493e1c5d904e882b1c380673c6ebe49a98

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
阿里巴巴大数据计算
使用钉钉扫一扫加入圈子
+ 订阅

阿里大数据官方技术圈

官方博客
链接