DataWorks数据集成与开源Sqoop的对比

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 阿里巴巴技术专家张雅静为大家带来DataWorks数据集成与开源Sqoop的对比演讲。主要从介绍Sqoop开始谈起,接着详细介绍了DataWorks数据集成与开源Sqoop对比以及注意事项,然后着重说明了DataWorks数据集成并进行了实操演示,最后对全文进行了总结。以下是精彩视频内容整理:

摘要:阿里巴巴技术专家张雅静为大家带来DataWorks数据集成与开源Sqoop的对比演讲。主要从介绍Sqoop开始谈起,接着详细介绍了DataWorks数据集成与开源Sqoop对比以及注意事项,然后着重说明了DataWorks数据集成并进行了实操演示,最后对全文进行了总结。

本次分享主要围绕以下四个方面:
一、Sqoop简介
二、DataWorks数据集成与开源Sqoop的对比及注意事项
三、DataWorks数据集成的介绍
四、数据集成与Sqoop对比总结

以下是精彩视频内容整理:

一、Sqoop简介

Sqoop是一款开源的数据同步工具,是Hadoop生态环境中数据迁移的首选。
Sqoop即SQL to Hadoop,是一款方便的在传统型数据库(mysql、oracle)与Hadoop之间进行数据迁移的工具,充分利用MapReduce并行特点以批处理的方式加快数据传输,提供了很高的并行性能及良好的容错性,发展至今主要演化了二大版本,Sqoop1和Sqoop2。
Sqoop工具是hadoop下连接关系型数据库和Hadoop的桥梁,支持关系型数据库和hive、hdfs、hbase之间数据的相互导入,可以使用全表导入和增量导入。
屏幕快照 2020-03-04 下午8.00.22.png

Sqoop的优势包括以下几方面:
高效可控的利用资源,任务并行度,超时时间。
数据类型映射与转化,可自动进行,用户也可自定义。
支持多种主流数据库,MySQL,Oracle,SQL Server等等。

二、DataWorks数据集成与开源Sqoop对比以及注意事项

1. 处理方式
DataWorks数据集成:底层是DataX进行数据的抽取及加载。数据通道通过定义数据来源和去向的数据源和数据集,提供一套抽象化的数据抽取插件(Reader)、数据写入插件(Writer),并基于此框架设计一套简化版的中间数据传输格式,从而实现任意结构化、半结构化数据源之间数据传输。
Sqoop:Sqoop底层用MapReduce程序实现抽取,转换,加载。Sqoop根据输入条件,生成一个map-reduce的作业,在Hadoop的框架中运行。
2. 支持数据源
数据集成支持的数据源:任意数据源,任意格式,任意位置,任意复杂网络下的高效数据采集传输。具体包括以下几方面:
关系数据库:MySQL,SQL Server,DRDS,POLARDB,HybridDB for MySQL,AnalyticDB for PostgreSQL,AnalyticDB for MySQL 2.0,AnalyticDB for MySQL 3.0,PostgreSQL,Oracle,DM
大数据存储:MaxCompute (ODPS),DataHub,Data Lake Analytics(DLA),Vertica,GBase8a,Hive,Hbase。
半结构化:OSS,HDFS,FTP。
NOSQL:MongoDB,Memcache (OCS),Redis,Table Store (OTS),GDB,Elasticsearch消息队列:LogHub (日志服务)
实时:MySQL Binlog,Oracle (CDC)
而Sqoop是Hadoop和关系型数据库(RDBMS)之间相互迁移的工具。支持Hive,Hbase,MySQL,Oracle。
3. 资源问题
DataWorks数据集成:可以通过开通独享数据集成资源组来解决数据同步过程中资源不足的问题。而Sqoop没有特定的资源划分。
4. 开发模式
DataWorks数据集成提供向导模式和脚本模式。如图所示,可以配置数据来源和数据去向,或者是利用脚本模式配置,而Sqoop提供命令行的模式。
屏幕快照 2020-03-04 下午8.19.17.png

5. 网络环境
DataWorks数据集成网络类型包括经典网络、专有网络(VPC)和本地IDC网络:
经典网络:统一部署在阿里云的公共基础网络内,网络的规划和管理由阿里云负责,更适合对网络易用性要求比较高的客户。IP地址由阿里云统一分配,配置简便,使用方便。
专有网络:基于阿里云构建出一个隔离的网络环境。与在数据中心运行的传统网络相似,托管在VPC内的是私有云服务资源,比如云主机、负载均衡和云数据库,您可以完全掌控自己的虚拟网络,包括选择自有的IP地址范围,划分网段以及配置路由表、网关。专有网络构建了一个隔离的网络环境,您可以自定义IP地址范围、网段、网关等参数。也可以通过VPN或专线VPC以数据中心灵活部署混合云。适用于网络安全性比较高及有一定网络管理能力的用户。
本地IDC网络
而Sqoop是自身构建机房的网络环境。

注意事项

1. 添加安全组和白名单
如果您使用的是ECS自建数据库,则必须添加安全组才能保证数据源连通性正常。如果您使用的是RDS数据源,必须添加白名单才能保证数据连通性正常。为保证数据库的安全稳定,在开始使用数据库的实例前,您需要将访问数据库的IP地址或IP段加到目标实例的白名单或安全组中。
如何添加安全组?
如果您的ECS上的自建数据源同步任务运行在自定资源组上,需要给自定资源组机器授权,将自定义机器内/外网的IP和端口添加到ECS安全组上。如果您的ECS上的自建数据源运行在默认的资源组上,需要给默认的机器授权。根据您的ECS的机器区域来选择添加您的安全组内容,例如您的ECS是华北2,安全组便添加华北2(北京):sg-2ze3236e8pcbxw61o9y0和1156529087455811内容,并且只能在华北2添加数据源。

添加安全组首先要登录云服务器ECS的管理控制台。然后进入网络和安全——>安全组页面,选择目标区域。
屏幕快照 2020-03-04 下午8.21.44.png

找到要配置授权规则的安全组,单击操作列下的配置规则。
屏幕快照 2020-03-04 下午8.22.14.png

填写添加安全组规则对话框中的配置。如放行端口和授权对象等。
屏幕快照 2020-03-04 下午8.22.36.png

如何添加白名单?根据工作空间所在的区域选择相应的白名单。目前,部分数据源有白名单的限制,需要对数据集成的访问IP进行放行。例如,RDS、MongoDB和Redis等常见的数据源,需要在相应的控制台对下列IP进行开放。通常添加白名单有以下两种情况:
(1)同步任务运行在自定资源组上,需要给自定资源组机器授权,将自定义机器内/外网IP添加数据源的白名单列表。
(2)同步任务运行在默认资源组上,需要给底层运行机器授予访问权限,根据您选择DataWorks的区域来填写您需要添加的白名单,内容如上表所示。
进入RDS控制台,在页面左上角,选择实例所在地域。找到目标实例,单击实例ID。在左侧导航栏中选择数据安全性。
屏幕快照 2020-03-04 下午8.24.18.png

2. 数据集成的网络连通
数据同步之前需要打通数据库网络问题,可以通过高速通道打通跨地域、跨用户的VPC、内网或者物理专线连接实现云下的IDC接入云上。

三、 DataWorks数据集成介绍


阿里云重要的PaaS平台产品,为您提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。
DataWorks支持多种计算和存储引擎服务,包括离线计算MaxCompute、开源大数据引擎E-MapReduce、实时计算(基于Flink)、机器学习PAI、图计算服务Graph Compute和交互式分析服务等,并且支持用户自定义接入计算和存储服务。DataWorks为您提供全链路智能大数据及AI开发和治理服务。本文主要介绍数据集成服务,其他功能不一一介绍。
DataWorks数据集成
屏幕快照 2020-03-04 下午8.29.38.png

数据集成是稳定高效、弹性伸缩的数据同步平台,致力于提供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力;包括20+种异构数据源,支持经典/专有等网络环境,同步任务调度和监控报警,支持多种同步方式。
屏幕快照 2020-03-04 下午8.29.55.png

离线(批量)的数据通道通过定义数据来源和去向的数据源和数据集,提供一套抽象化的数据抽取插件(Reader)、数据写入插件(Writer),并基于此框架设计一套简化版的中间数据传输格式,从而实现任意结构化、半结构化数据源之间数据传输。
屏幕快照 2020-03-04 下午8.30.21.png

独享资源组
什么是独享资源组?
使用独享资源组可以解决数据同步过程中的资源不足问题。不仅可以隔离用户间的资源使用,也可以隔离不同工作空间任务的资源使用。此外,独享资源也支持灵活的扩容、缩容功能,可以满足资源独享、灵活配置等需求。独享资源组可以访问在同一地域下的VPC数据源,同时也可以访问跨地域的公网RDS地址。
怎么购买?
DataWorks独享资源采用包年包月的方式购买,您可以通过产品详情页或新增独享资源两个入口进行购买:产品详情页入口进入DataWorks产品页面,单击独享资源组,即可跳转至购买页面。
新增独享资源入口:登录DataWorks控制台。单击左侧导航栏中的资源组列表,默认进入独享资源组页面。如果您在该地域未购买过独享资源,单击新增独享资源组。在新增独享资源对话框中,单击订单号后的购买,即可跳转至购买页面。
屏幕快照 2020-03-04 下午8.33.12.png

进入购买页面后,请根据实际需要,选择相应的地域、独享资源类型、独享调度资源、资源数量和计费周期,单击立即购买。

在资源组列表——>独享资源组页面,单击相应资源后的修改归属工作空间,绑定独享数据集成资源归属的工作空间。
配置数据集成任务时,将默认资源组配置为需要的独享数据集成资源。通过向导模式配置任务时,在通道控制——>任务资源组下拉框中,选择相应的独享数据集成资源。脚本模式时,配置任务资源组下拉框中选择独享数据集成资源。
屏幕快照 2020-03-04 下午8.33.21.png

在您的任务没有把相应的独享资源组占满的前提下,可以保证您的任务及时得到响应。具备打通您的VPC、IDC的能力。而且,与默认资源组相比,支持更多类型的数据源。可以被多个DataWorks工作空间共享,实现资源的复用。
特别说明,如果已经打通本地IDC和阿里云专有网络,您可以使用数据集成资源同步任务。请购买独享数据集成资源后,提交工单进行处理。独享数据集成资源组不支持跨区域的VPC数据库同步。如果需要在独享数据集成资源组上进行添加路由等操作,请提交工单进行申请。使用数据集成独享资源组时,请保证数据源自身所在机器可以被该资源组绑定的VPC访问。如果有安全拦截,请对相应的白名单放行,即在数据源侧的白名单添加该资源组绑定的VPC网段。

数据集成-全程可视化
如图,从添加数据源到创建数据同步的节点,再到运维中心的监控,都是可以全程监控的。
屏幕快照 2020-03-04 下午8.35.31.png

四、总结

屏幕快照 2020-03-04 下午8.36.33.png

DataWorks数据集成和开源Sqoop都是解决异构环境的数据交换问题,都支持Oracle、Mysql、HDFS、Hive互相转换,对数据库的支持都是插件式的,对新增的数据源类型只需要开发一个插件就行了,Sqoop是工具,数据集成是产品,和DataWorks工作流无缝对接,构成一体化数据加工链路。DataWorks和Sqoop都支持离线数据同步,数据集成还支持实时同步,两者都支持全量增量的数据同步;DataWorks底层是DataX进行数据的抽取及加载,Sqoop底层是MapReduce程序实现抽取,转换,加载;DataWorks支持关系型数据库、大数据存储,半结构化,NOSQL,消息队列等,Sqoop是Hadoop和关系型数据库(RDBMS)之间相互迁移的工具;DataWorks支持独享资源组/自定义资源组,Sqoop没有特定的资源划分;DataWorks支持向导模式/脚本模式,Sqoop支持命令行模式;DataWorks支持经典网络、专有网络、本地IDC,Sqoop是自身构建机房的网络环境。

欢迎加入“MaxCompute开发者社区2群”,点击链接MaxCompute开发者社区2群申请加入或扫描二维码
屏幕快照 2020-03-04 下午8.37.32.png

目录
相关文章
|
3月前
|
弹性计算 机器人 应用服务中间件
一键部署开源Qwen3并集成到钉钉、企业微信
Qwen3系列模型现已正式发布并开源,包含8款“混合推理模型”,其中涵盖两款MoE模型(Qwen3-235B-A22B与Qwen3-30B-A3B)及六个Dense模型。阿里云计算巢已支持Qwen3-235B-A22B和Qwen3-32B的私有化部署,用户可通过计算巢轻松完成部署,并借助AppFlow集成至钉钉机器人或企业微信。文档详细介绍了从模型部署、创建应用到配置机器人的全流程,帮助用户快速实现智能助手的接入与使用。
246 19
一键部署开源Qwen3并集成到钉钉、企业微信
|
5月前
|
存储 NoSQL 关系型数据库
PolarDB开源数据库进阶课17 集成数据湖功能
本文介绍了如何在PolarDB数据库中接入pg_duckdb、pg_mooncake插件以支持数据湖功能, 可以读写对象存储的远程数据, 支持csv, parquet等格式, 支持delta等框架, 并显著提升OLAP性能。
254 3
|
5月前
|
存储 关系型数据库 分布式数据库
PolarDB开源数据库进阶课15 集成DeepSeek等大模型
本文介绍了如何在PolarDB数据库中接入私有化大模型服务,以实现多种应用场景。实验环境依赖于Docker容器中的loop设备模拟共享存储,具体搭建方法可参考相关系列文章。文中详细描述了部署ollama服务、编译并安装http和openai插件的过程,并通过示例展示了如何使用这些插件调用大模型API进行文本分析和情感分类等任务。此外,还探讨了如何设计表结构及触发器函数自动处理客户反馈数据,以及生成满足需求的SQL查询语句。最后对比了不同模型的回答效果,展示了deepseek-r1模型的优势。
257 3
|
4月前
|
人工智能 网络协议 Java
RuoYi AI:1人搞定AI中台!开源全栈式AI开发平台,快速集成大模型+RAG+支付等模块
RuoYi AI 是一个全栈式 AI 开发平台,支持本地 RAG 方案,集成多种大语言模型和多媒体功能,适合企业和个人开发者快速搭建个性化 AI 应用。
1327 77
RuoYi AI:1人搞定AI中台!开源全栈式AI开发平台,快速集成大模型+RAG+支付等模块
|
3月前
|
人工智能 自然语言处理 DataWorks
DataWorks Copilot 集成Qwen3-235B-A22B混合推理模型,数据开发与分析效率再升级!
阿里云DataWorks平台正式接入Qwen3模型,支持最大235B参数量。用户可通过DataWorks Copilot智能助手调用该模型,以自然语言交互实现代码生成、优化、解释及纠错等功能,大幅提升数据开发与分析效率。Qwen3作为最新一代大语言模型,具备混合专家(MoE)和稠密(Dense)架构,适应多种应用场景,并支持MCP协议优化复杂任务处理。目前,用户可通过DataWorks Data Studio新版本体验此功能。
294 23
DataWorks Copilot 集成Qwen3-235B-A22B混合推理模型,数据开发与分析效率再升级!
|
4月前
|
人工智能 监控 数据可视化
Agent TARS:一键让AI托管电脑!字节开源PC端多模态AI助手,无缝集成浏览器与系统操作
Agent TARS 是一款开源的多模态AI助手,能够通过视觉解析网页并无缝集成命令行和文件系统,帮助用户高效完成复杂任务。
3129 13
Agent TARS:一键让AI托管电脑!字节开源PC端多模态AI助手,无缝集成浏览器与系统操作
|
3月前
|
人工智能 API 开发工具
GitHub官方开源MCP服务!GitHub MCP Server:无缝集成GitHub API,实现Git流程完全自动化
GitHub MCP Server是基于Model Context Protocol的服务器工具,提供与GitHub API的无缝集成,支持自动化处理问题、Pull Request和仓库管理等功能。
769 2
GitHub官方开源MCP服务!GitHub MCP Server:无缝集成GitHub API,实现Git流程完全自动化
|
4月前
|
人工智能 BI API
Dify-Plus:企业级AI管理核弹!开源方案吊打SaaS,额度+密钥+鉴权系统全面集成
Dify-Plus 是基于 Dify 二次开发的企业级增强版项目,新增用户额度、密钥管理、Web 登录鉴权等功能,优化权限管理,适合企业场景使用。
642 3
Dify-Plus:企业级AI管理核弹!开源方案吊打SaaS,额度+密钥+鉴权系统全面集成
|
4月前
|
SQL 弹性计算 DataWorks
Flink CDC 在阿里云 DataWorks 数据集成入湖场景的应用实践
Flink CDC 在阿里云 DataWorks 数据集成入湖场景的应用实践
173 6
|
5月前
|
存储 人工智能 NoSQL
Airweave:快速集成应用数据打造AI知识库的开源平台,支持多源整合和自动同步数据
Airweave 是一个开源工具,能够将应用程序的数据同步到图数据库和向量数据库中,实现智能代理检索。它支持无代码集成、多租户支持和自动同步等功能。
288 14