Sqoop入门（一篇就够了）（下）-阿里云开发者社区

Sqoop入门（一篇就够了）（下）

2023-11-20 139

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生数据库 PolarDB MySQL 版，通用型 2核4GB 50GB

云原生数据库 PolarDB PostgreSQL 版，标准版 2核4GB 50GB

简介： Sqoop入门（一篇就够了）（下）

05 Sqoop原理

Sqoop的原理：其实就是将导入导出命令转化为mapreduce程序来执行，sqoop在接收到命令后，都要生成mapreduce程序。

5.1 Sqoop 代码定制

使用sqoop的代码生成工具可以方便查看到sqoop所生成的java代码，并可在此基础之上进行深入定制开发。

5.1.2 代码定制语法

以下是Sqoop代码生成命令的语法：

$ sqoop-codegen (generic-args) (codegen-args) 
$ sqoop-codegen (generic-args) (codegen-args)

5.1.2 代码定制案例

示例：以USERDB数据库中的表emp来生成Java代码为例，下面的命令用来生成导入：

$ sqoop-codegen \
--import
--connect jdbc:mysql://localhost/userdb \
--username root \ 
--table emp

如果命令成功执行，那么它就会产生如下的输出：

14/12/23 02:34:40 INFO sqoop.Sqoop: Running Sqoop version: 1.4.5
14/12/23 02:34:41 INFO tool.CodeGenTool: Beginning code generation
……………….
14/12/23 02:34:42 INFO orm.CompilationManager: HADOOP_MAPRED_HOME is /usr/local/hadoop
Note: /tmp/sqoop-hadoop/compile/9a300a1f94899df4a9b10f9935ed9f91/emp.java uses or overrides a deprecated API.
Note: Recompile with -Xlint:deprecation for details.
14/12/23 02:34:47 INFO orm.CompilationManager: Writing jar file: /tmp/sqoop-hadoop/compile/9a300a1f94899df4a9b10f9935ed9f91/emp.jar

验证: 查看输出目录下的文件

$ cd /tmp/sqoop-hadoop/compile/9a300a1f94899df4a9b10f9935ed9f91/
$ ls
emp.class
emp.jar
emp.java

如果想做深入定制导出，则可修改上述代码文件！

06 Sqoop、DataX关系与对比

DataX之前写过教程，可以参考《DataX教程》

6.1 Sqoop特点

Sqoop主要特点：

可以将关系型数据库中的数据导入hdfs、hive或者hbase等hadoop组件中，也可将hadoop组件中的数据导入到关系型数据库中；

sqoop在导入导出数据时，充分采用了map-reduce计算框架，根据输入条件生成一个map-reduce作业，在hadoop集群中运行。采用map-reduce框架同时在多个节点进行import或者export操作，速度比单节点运行多个并行导入导出效率高，同时提供了良好的并发性和容错性；

支持insert、update模式，可以选择参数，若内容存在就更新，若不存在就插入；

对国外的主流关系型数据库支持性更好。

6.2 DataX特点

DataX主要特点：

异构数据库和文件系统之间的数据交换；

采用Framework + plugin架构构建，Framework处理了缓冲，流控，并发，上下文加载等高速数据交换的大部分技术问题，提供了简单的接口与插件交互，插件仅需实现对数据处理系统的访问；

数据传输过程在单进程内完成，全内存操作，不读写磁盘，也没有IPC；

开放式的框架，开发者可以在极短的时间开发一个新插件以快速支持新的数据库/文件系统。

6.3 Sqoop与DataX的区别

Sqoop与DataX的区别如下：

sqoop采用map-reduce计算框架进行导入导出，而datax仅仅在运行datax的单台机器上进行数据的抽取和加载，速度比sqoop慢了许多；

sqoop只可以在关系型数据库和hadoop组件之间进行数据迁移，而在hadoop相关组件之间，比如hive和hbase之间就无法使用sqoop互相导入导出数据，同时在关系型数据库之间，比如mysql和oracle之间也无法通过sqoop导入导出数据。

与之相反，datax能够分别实现关系型数据库hadoop组件之间、关系型数据库之间、hadoop组件之间的数据迁移；

sqoop是专门为hadoop而生，对hadoop支持度好，而datax可能会出现不支持高版本hadoop的现象；

sqoop只支持官方提供的指定几种关系型数据库和hadoop组件之间的数据交换，而在datax中，用户只需根据自身需求修改文件，生成相应rpm包，自行安装之后就可以使用自己定制的插件；

07 文末

本文主要讲解了Sqoop的概念、安装以及使用，谢谢大家的阅读，本文完！

Sqoop入门（一篇就够了）（下）

05 Sqoop原理

5.1 Sqoop 代码定制

5.1.2 代码定制语法

5.1.2 代码定制案例

06 Sqoop、DataX关系与对比

6.1 Sqoop特点

6.2 DataX特点

6.3 Sqoop与DataX的区别

07 文末

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Sqoop入门（一篇就够了）（下）

05 Sqoop原理

5.1 Sqoop 代码定制

5.1.2 代码定制语法

5.1.2 代码定制案例

06 Sqoop、DataX关系与对比

6.1 Sqoop特点

6.2 DataX特点

6.3 Sqoop与DataX的区别

07 文末

热门文章

最新文章

相关课程

相关电子书

相关实验场景