阿里巴巴下一代数据集成技术

简介: 数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有了很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。

摘要

数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有了很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。

986c61c7f38883d3a0de1b05d5477f2c89dadbd1

视频分享地址:https://v.qq.com/iframe/player.html?vid=o0547tqlw0z&width=670&height=376.875&auto=0


数据工厂

85ca00e556454d2c55ff8eafca2008b5edab5ff4


数据工厂解决了云上从数据的采集整合,到数据加工、分析与管理,再到数据应用和消费的整个流程。


上图中红色标注部分是数据集成的位置。数据集成既是把数据采到数据平台部分的数据通道,也是数据出去的通道。


中间就是所有数据的清洗转换、调度、OLAP分析以及数据挖掘的常用工具和模块。


最底层是元数据管理,是一个至关重要的模块。


传统数据处理有时候会叫做数仓,数仓是偏离线的。现在普遍叫数据平台,数据平台更强调它和在线系统的融合打通。


cf9e339e5ab01eed38c95efc55a560644866741c


如上图所示,极简罗汉图构建的体系就是数据工厂。大家要自己搭建一个大数据开发平台的话,这些是基础模块,也是必要的组件。


最上面是调度,两侧有开发测试的环境,和整个大数据开发的运维管理。中间的“神经系统”是元数据,没有元数据所有东西都是无效的。再往下是整个大数据的计算引擎,阿里巴巴早就已经用完全自研的MaxCompute以及ADS等一系列的计算引擎替换了开源部分。最底下是数据集成,决定了数据怎么进来怎么出去。


数据集成

79393555afce5a941d73c30c933ff459f0520de0


上图所示是数据集成的使用过程。从选择数据源、选择目标,到字段映射,然后进行通道流控的配置,最后就是看日志。


625c0593d2e9938264051b797dc295f17f0d84d8


现在的数据集成已经超出了传统数据集成的范畴,也就是说传统数据集成的“屁股”是坐在数据仓库上的,面向的是业务数据库,对于多媒体文件或整个任意文件的支持还是比较少。现在非结构化数据的比重越来越大,尤其在阿里云上看到这种趋势非常明显。所以我们做了任意二进制文件的支持和视频文件的支持。


跨公网的数据传输是在云时代下一个非常重要的能力。当数据不在同城机房的时候,要想做一个简单的数据集成都需要跨公网把数据传输到统一的数据仓库中。


数据集成agent-datax

DataX是阿里巴巴集团内部被广泛使用的离线数据同步工具/平台,实现包括MySQL、Oracle、HDFS、Hive、OceanBase、HBase、OTS、ODPS等各种异构数据源之间高效的数据同步功能。


DataX是一个插件式架构,可以插拔,支持读写插件。我们会坚持开源,现在已经有了一定的影响力。它的性能很好,功能和稳定性远超sqoop。最近使用的客户案例有微博、金立、斗鱼直播,效果突出。


028434d711c59e7ccf9e2f57ce6d8207878606d8


单机首先要把任务进行拆分,然后做到并发。也就是大家能看到的开源版本主要能力就在这里。


140609c27c70f764623c7e351a1edcf4458344c4


我们服务端的模式支持水平扩展。


a57254ce18fd840f383b7ddc15e9d2397a349587


阿里内部在大数据这一块数据采集和传输的主打工具就是DataX,所以它有更多的考虑。流控这方面操作还是有些难度的,很多开源工具不提供这种能力。


d9123e9f9ff57d4b5911f1fbd5f63ffce069155e


数据集成在处理的时候有脏数据管理并记录,而且还有基于规则的判断,自动把日志打出来,做基本的质量控制。


8d5c477db0808df6d9d5265459de66b69f65a544


任意位置是指跨公网;任意存储是数据集成一开始就坚持的一种能力;还有正交数据采集传输。


图中画的是从用户机房到阿里云上的VPC。在阿里云上一旦引入VPC就会使网络环境变得很复杂,当然也带来很多好处。但是复杂性尤其是对数据集成这种工具的体验是会产生很大影响的。


我们为了突破这些也做了很多工作,现在我们可以从任意位置打透用户的机房以及阿里云上用户自己的VPC。


数加.数据集成线上情况

每天有11万+作业运行在DI平台之上,DI每天的同步数据量达到10.2TB。每天的同步记录条数达到近500亿,还在持续增长中。阿里自从做数据平台以来,数据集成一直是它的主力工具。

数加.数据集成能力总结

支持的类型多。支持任意主流格式和二进制数据、音视频、多媒体。


传输快。在传输方面我们做了断点续传、分块传输和网络协议加速等工作,现在也取得了一些效果。


网络通。能够穿透任意复杂的网络环境,例如从VPC到Region,还有跨公网。


一站式迁移。现在在接触很多大客户的时候,很多客户不想再继续自己维护hadoop了,希望我们能完整地一键把整个hadoop体系迁移到云上,以及把DB迁移到云上。在这种情况下我们可以做到一些一站式的服务。


还有两个更好的能力就是支持实时采集传输和支持客户端、Web端采集。


我希望能把数据集成做到极致,做得更大。


以上就是我今天的分享,谢谢大家!


231917d3ccd8c2bd659b2da51d3fffe93a879a0a点击活动链接


阿里巴巴大数据-玩家社区 https://yq.aliyun.com/teams/6/

---阿里大数据博文,问答,社群,实践,有朋自远方来,不亦说乎……

bba01b493e1c5d904e882b1c380673c6ebe49a98

目录
相关文章
|
6月前
|
存储 弹性计算 大数据
从大数据平台CDP的架构看大数据的发展趋势 1
从大数据平台CDP的架构看大数据的发展趋势
|
7月前
|
Cloud Native 关系型数据库 MySQL
下一代企业级云原生实时数仓的创新和实践(一)
下一代企业级云原生实时数仓的创新和实践(一)
224 1
|
7月前
|
存储 Cloud Native 大数据
实时分析、融合统一及云原生,现代化数据仓库未来发展必经之路|专访飞轮科技 CEO 马如悦
Apache Doris 历经近十年的发展,为何还能持续保持竞争力和活力?其背后的核心推动力又是什么?
|
存储 机器学习/深度学习 SQL
湖仓一体:大数据平台的下一代架构-贾扬清|学习笔记
快速学习湖仓一体:大数据平台的下一代架构-贾扬清。
336 0
|
Cloud Native Serverless 虚拟化
火山引擎联合IDC发布云原生白皮书:50%企业已将云原生技术应用到生产环境
火山引擎联合IDC发布云原生白皮书:50%企业已将云原生技术应用到生产环境
202 0
火山引擎联合IDC发布云原生白皮书:50%企业已将云原生技术应用到生产环境
|
人工智能 分布式计算 Cloud Native
《阿里云云原生一体化数仓新能力解读》电子书重磅来袭!六大能力,助力企业构建全托管的现代化数仓!
离线实时一体、分析服务一体、湖仓一体、数据安全、数据建模、数据治理,六大热门主题,六位大数据专家,带你了解当前炙手可热的云数仓产品最新演进趋势。
1379 0
《阿里云云原生一体化数仓新能力解读》电子书重磅来袭!六大能力,助力企业构建全托管的现代化数仓!
|
Cloud Native 大数据 开发者
阿里云发布中国云原生数据湖应用洞察白皮书
近日,阿里云发布《中国云原生数据湖应用洞察白皮书》。云原生数据湖主要应用于泛互联网行业(40.7%)及传统行业的互联网场景(泛政务、金融、工业、医疗、汽车等),未来将向更多具有大数据和高价值属性的行业拓展。
402 0
阿里云发布中国云原生数据湖应用洞察白皮书
|
人工智能 运维 Cloud Native
阿里巴巴云原生大数据运维平台 SREWorks 正式开源
阿里巴巴云原生大数据运维平台 SREWorks,沉淀了团队近10年经过内部业务锤炼的 SRE 工程实践,今天正式对外开源,秉承“数据化、智能化”运维思想,帮助运维行业更多的从业者采用“数智”思想做好高效运维
|
存储 运维 监控
如何构建云原生的开源大数据平台 | 微淼基于阿里云大数据生态的应用实践
随着开源技术与云原生的高度融合,阿里云开源大数据平台在功能性、易用性、安全性上积累了丰富的实践经验,已成功服务数千家企业,助力其聚焦自身核心业务优势,缩短开发周期、简化运维难度,拓展更多业务创新。10月29日,阿里云发布“如何构建云原生的开源大数据平台”解决方案,邀请到了来自阿里云、微淼、Inmobi的技术专家为大家现身说法,呈现上云实践。
如何构建云原生的开源大数据平台 | 微淼基于阿里云大数据生态的应用实践
|
存储 消息中间件 SQL
如何构建云原生的开源大数据平台 | InMobi 基于阿里云开源大数据服务的最佳实践
随着开源技术与云原生的高度融合,阿里云开源大数据平台在功能性、易用性、安全性上积累了丰富的实践经验,已成功服务数千家企业,助力其聚焦自身核心业务优势,缩短开发周期、简化运维难度,拓展更多业务创新。10月29日,阿里云发布“如何构建云原生的开源大数据平台”解决方案,邀请到了来自阿里云、微淼、Inmobi的技术专家为大家现身说法,呈现上云实践。
如何构建云原生的开源大数据平台 | InMobi 基于阿里云开源大数据服务的最佳实践