阿里巴巴下一代数据集成技术

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有了很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。

摘要

数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有了很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。

986c61c7f38883d3a0de1b05d5477f2c89dadbd1

视频分享地址:https://v.qq.com/iframe/player.html?vid=o0547tqlw0z&width=670&height=376.875&auto=0


数据工厂

85ca00e556454d2c55ff8eafca2008b5edab5ff4


数据工厂解决了云上从数据的采集整合,到数据加工、分析与管理,再到数据应用和消费的整个流程。


上图中红色标注部分是数据集成的位置。数据集成既是把数据采到数据平台部分的数据通道,也是数据出去的通道。


中间就是所有数据的清洗转换、调度、OLAP分析以及数据挖掘的常用工具和模块。


最底层是元数据管理,是一个至关重要的模块。


传统数据处理有时候会叫做数仓,数仓是偏离线的。现在普遍叫数据平台,数据平台更强调它和在线系统的融合打通。


cf9e339e5ab01eed38c95efc55a560644866741c


如上图所示,极简罗汉图构建的体系就是数据工厂。大家要自己搭建一个大数据开发平台的话,这些是基础模块,也是必要的组件。


最上面是调度,两侧有开发测试的环境,和整个大数据开发的运维管理。中间的“神经系统”是元数据,没有元数据所有东西都是无效的。再往下是整个大数据的计算引擎,阿里巴巴早就已经用完全自研的MaxCompute以及ADS等一系列的计算引擎替换了开源部分。最底下是数据集成,决定了数据怎么进来怎么出去。


数据集成

79393555afce5a941d73c30c933ff459f0520de0


上图所示是数据集成的使用过程。从选择数据源、选择目标,到字段映射,然后进行通道流控的配置,最后就是看日志。


625c0593d2e9938264051b797dc295f17f0d84d8


现在的数据集成已经超出了传统数据集成的范畴,也就是说传统数据集成的“屁股”是坐在数据仓库上的,面向的是业务数据库,对于多媒体文件或整个任意文件的支持还是比较少。现在非结构化数据的比重越来越大,尤其在阿里云上看到这种趋势非常明显。所以我们做了任意二进制文件的支持和视频文件的支持。


跨公网的数据传输是在云时代下一个非常重要的能力。当数据不在同城机房的时候,要想做一个简单的数据集成都需要跨公网把数据传输到统一的数据仓库中。


数据集成agent-datax

DataX是阿里巴巴集团内部被广泛使用的离线数据同步工具/平台,实现包括MySQL、Oracle、HDFS、Hive、OceanBase、HBase、OTS、ODPS等各种异构数据源之间高效的数据同步功能。


DataX是一个插件式架构,可以插拔,支持读写插件。我们会坚持开源,现在已经有了一定的影响力。它的性能很好,功能和稳定性远超sqoop。最近使用的客户案例有微博、金立、斗鱼直播,效果突出。


028434d711c59e7ccf9e2f57ce6d8207878606d8


单机首先要把任务进行拆分,然后做到并发。也就是大家能看到的开源版本主要能力就在这里。


140609c27c70f764623c7e351a1edcf4458344c4


我们服务端的模式支持水平扩展。


a57254ce18fd840f383b7ddc15e9d2397a349587


阿里内部在大数据这一块数据采集和传输的主打工具就是DataX,所以它有更多的考虑。流控这方面操作还是有些难度的,很多开源工具不提供这种能力。


d9123e9f9ff57d4b5911f1fbd5f63ffce069155e


数据集成在处理的时候有脏数据管理并记录,而且还有基于规则的判断,自动把日志打出来,做基本的质量控制。


8d5c477db0808df6d9d5265459de66b69f65a544


任意位置是指跨公网;任意存储是数据集成一开始就坚持的一种能力;还有正交数据采集传输。


图中画的是从用户机房到阿里云上的VPC。在阿里云上一旦引入VPC就会使网络环境变得很复杂,当然也带来很多好处。但是复杂性尤其是对数据集成这种工具的体验是会产生很大影响的。


我们为了突破这些也做了很多工作,现在我们可以从任意位置打透用户的机房以及阿里云上用户自己的VPC。


数加.数据集成线上情况

每天有11万+作业运行在DI平台之上,DI每天的同步数据量达到10.2TB。每天的同步记录条数达到近500亿,还在持续增长中。阿里自从做数据平台以来,数据集成一直是它的主力工具。

数加.数据集成能力总结

支持的类型多。支持任意主流格式和二进制数据、音视频、多媒体。


传输快。在传输方面我们做了断点续传、分块传输和网络协议加速等工作,现在也取得了一些效果。


网络通。能够穿透任意复杂的网络环境,例如从VPC到Region,还有跨公网。


一站式迁移。现在在接触很多大客户的时候,很多客户不想再继续自己维护hadoop了,希望我们能完整地一键把整个hadoop体系迁移到云上,以及把DB迁移到云上。在这种情况下我们可以做到一些一站式的服务。


还有两个更好的能力就是支持实时采集传输和支持客户端、Web端采集。


我希望能把数据集成做到极致,做得更大。


以上就是我今天的分享,谢谢大家!


231917d3ccd8c2bd659b2da51d3fffe93a879a0a点击活动链接


阿里巴巴大数据-玩家社区 https://yq.aliyun.com/teams/6/

---阿里大数据博文,问答,社群,实践,有朋自远方来,不亦说乎……

bba01b493e1c5d904e882b1c380673c6ebe49a98

目录
相关文章
|
3月前
|
消息中间件 弹性计算 Kubernetes
RabbitMQ与容器化技术的集成实践
【8月更文第28天】RabbitMQ 是一个开源消息代理和队列服务器,用于在分布式系统中存储、转发消息。随着微服务架构的普及,容器化技术(如 Docker 和 Kubernetes)成为了部署和管理应用程序的标准方式。本文将探讨如何使用 Docker 和 Kubernetes 在生产环境中部署和管理 RabbitMQ 服务,同时保证高可用性和弹性伸缩能力。
56 3
|
10天前
|
安全 测试技术 数据安全/隐私保护
原生鸿蒙应用市场开发者服务的技术解析:从集成到应用发布的完整体验
原生鸿蒙应用市场开发者服务的技术解析:从集成到应用发布的完整体验
|
2月前
|
存储 中间件 API
ThinkPHP 集成 jwt 技术 token 验证
本文介绍了在ThinkPHP框架中集成JWT技术进行token验证的流程,包括安装JWT扩展、创建Token服务类、编写中间件进行Token校验、配置路由中间件以及测试Token验证的步骤和代码示例。
ThinkPHP 集成 jwt 技术 token 验证
|
2月前
|
搜索推荐 安全 物联网
智能家居技术的未来:集成化与个性化的融合
本文将深入探讨智能家居技术的发展趋势,特别是集成化和个性化如何成为未来智能家居系统设计的核心。文章将分析当前智能家居技术面临的挑战,并展示通过集成化提高系统效率、降低成本的方法。同时,讨论个性化服务在提升用户体验方面的重要性,以及如何通过数据驱动和人工智能技术实现这一目标。最后,文章将预测未来智能家居技术的发展方向,包括物联网设备的进一步整合、安全性的提升,以及智能家居技术在健康监测和环境可持续性方面的应用潜力。
91 1
|
3月前
|
缓存 安全 Java
Java服务器端技术:Servlet与JSP的集成与扩展
Java服务器端技术:Servlet与JSP的集成与扩展
32 3
|
3月前
|
消息中间件 运维 Cloud Native
核心系统转型问题之快速集成不同技术体系构建的应用系统如何解决
核心系统转型问题之快速集成不同技术体系构建的应用系统如何解决
|
3月前
|
人工智能 安全 搜索推荐
智能家居技术的未来:集成与创新
随着物联网技术的飞速发展,智能家居系统正在经历一场革命。本文将探讨未来智能家居技术的发展方向,包括更高层次的设备集成、用户交互体验的革新、数据安全的重要性以及人工智能在智能家居中的应用前景。通过分析当前的技术趋势和市场需求,我们预见到一个更加智能、互联和自动化的家庭环境即将到来。
85 1
|
3月前
|
C# Windows 开发者
当WPF遇见OpenGL:一场关于如何在Windows Presentation Foundation中融入高性能跨平台图形处理技术的精彩碰撞——详解集成步骤与实战代码示例
【8月更文挑战第31天】本文详细介绍了如何在Windows Presentation Foundation (WPF) 中集成OpenGL,以实现高性能的跨平台图形处理。通过具体示例代码,展示了使用SharpGL库在WPF应用中创建并渲染OpenGL图形的过程,包括开发环境搭建、OpenGL渲染窗口创建及控件集成等关键步骤,帮助开发者更好地理解和应用OpenGL技术。
214 0
|
3月前
|
持续交付 测试技术 jenkins
JSF 邂逅持续集成,紧跟技术热点潮流,开启高效开发之旅,引发开发者强烈情感共鸣
【8月更文挑战第31天】在快速发展的软件开发领域,JavaServer Faces(JSF)这一强大的Java Web应用框架与持续集成(CI)结合,可显著提升开发效率及软件质量。持续集成通过频繁的代码集成及自动化构建测试,实现快速反馈、高质量代码、加强团队协作及简化部署流程。以Jenkins为例,配合Maven或Gradle,可轻松搭建JSF项目的CI环境,通过JUnit和Selenium编写自动化测试,确保每次构建的稳定性和正确性。
60 0
|
3月前
|
前端开发 JavaScript API
Web服务器与前端技术的集成
【8月更文第28天】随着Web开发技术的发展,现代前端框架如React、Vue.js等已经成为构建复杂Web应用的标准工具。为了提供更好的用户体验,这些前端应用通常需要与后端Web服务器进行紧密集成。本文将详细介绍如何将React和Vue.js与后端Web服务器无缝集成,以创建高性能且用户友好的Web应用。
61 0