四十、centos安装sqoop(使用Sqoop完成MySQL和HDFS之间的数据互导)

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,高可用系列 2核4GB
简介: 四十、centos安装sqoop(使用Sqoop完成MySQL和HDFS之间的数据互导)

环境准备:


centos 7


centos 可以上网


hadoop,Hbase,Hive,Zookeeper正常运行


环境搭建:


版本:


sqoop1.4.7-hadoop2.6.0


一、Sqoop安装

   

1、直接在虚拟机浏览器下载sqoop1.4.7


https://archive.apache.org/dist/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz

https://archive.apache.org/dist/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz

46.png

47.png



       2、解压安装包


48.png


       3、重命名为Sqoop


mv sqoop-1.4.7.bin__hadoop-2.6.0 sqoop

49.png


       4、配置sqoop-env.sh


               (1)复制配置文件并重命名为sqoop-env.sh


cat sqoop-env-template.sh >> sqoop-env.sh

50.png

                 (2)修改配置文件


       编辑sqoop-env.sh文件,分别将Hadoop、HBase、Hive、ZooKeeper的安装目录添加到文件中。


51.png

52.png


       5、配置环境变量


vim /etc/profile

53.png


       使环境变量立即生效:


source /etc/profile

       6、配置MySQL连接


               (1)添加MySQL的JAR包到Sqoop安装目录中。


54.png


                (2)测试Sqoop与MySQL之间的连接


                        A、启动MySQL服务:


55.png


                        B、测试Sqoop与MySQL之间的连接是否成功:


sqoop list-databases --connect jdbc:mysql://localhost:3306 --username root -password dang

56.png


        注:如果可以看到MySQL数据库中的数据库列表,则表示Sqoop安装成功


centos安装Sqoop完成


Sqoop的使用:


二、使用Sqoop完成MySQL和HDFS之间的数据互导

     

1、上传准备好的测试数据到MySQL中


               (1)登录MySQL:


57.png


              (2)创建测试数据库


58.png


               (3)创建表test1,用于存放本地测试数据


create table test1(
     ip varchar(100) not null,
     time varchar(100) not null,
     url varchar(100) not null);

59.png


               (4)新建测试数据文件


60.png


               写入:


61.png


        注意:此 txt 文件字段之间需要用Tab键隔开,空格是不可行的,遇到datatime日期的,年月日,时分秒之间需用空格隔开,不需要添加引号


                (5)将本地的测试数据上传到test1表中


load data local infile "/opt/linshi/test.txt" into table test1(ip,time,url);


62.png

           


               (6)上传完成后,查看test1表中的数据:  


select * from test1;

select * from test1;


63.png

       2、上传数据到HDFS中


       (1)启动hadoop集群                


64.png


       (2)将test1中的数据上传到HDFS中:


./sqoop import --connect jdbc:mysql://localhost:3306/test --username root --password dang --table test1 -m 1

       (3)查看导入的数据


hdfs dfs -cat /user/root/test1/part-m-00000

65.png


       (4)登录HDFS网页查看


       HDFS的web端:localhost:50070


66.png



        (5)将HDFS数据导入MySQL中


       注:在导出前需要先创建导出表的结构,如果导出的表在数据表中不存在,则系统会报错;若重复导出数据,则表中的数据会重复


                A、 在test数据库中创建表test2,可以直接复制表test1的结构:


create table test2 as select * from test1 where 1=2;

67.png


               B、查看表test1,表test2:


68.png


               C、使用sqoop将HDFS中的数据导入MySQL的test2中:


sqoop export --connect jdbc:mysql://192.168.231.105:3306/test --username root --password dang --table test2 --export-dir /user/root/test1/part-m-00000 -m 1

69.png


        注:localhost最好写成本机地址,之前写的localhost报错了


       (6)再次查看test2表:


70.png



       HDFS的数据成功导入test2


一条华丽的分割线


centos安装sqoop(使用Sqoop完成MySQL和HDFS之间的数据互导)案例完成


其他环境搭建参见:


Hadoop伪分布式的搭建详情

https://blog.csdn.net/m0_54925305/article/details/118650350?spm=1001.2014.3001.5502


Hadoop完全分布式的搭建详情

https://blog.csdn.net/m0_54925305/article/details/118851554?spm=1001.2014.3001.5502


Zookeeper集群的搭建(单机、伪分布式、集群)

https://blog.csdn.net/m0_54925305/article/details/119059186?spm=1001.2014.3001.5502


Spark的安装与部署详情(Local模式,Standalone模式,Spank on YARN模式)

https://blog.csdn.net/m0_54925305/article/details/119005751?spm=1001.2014.3001.5502


HadoopHA环境搭建(保姆篇,手把手搭建)

https://blog.csdn.net/m0_54925305/article/details/119838463?spm=1001.2014.3001.5502


hbase集群的搭建(HBase Shell)

https://blog.csdn.net/m0_54925305/article/details/120787788?spm=1001.2014.3001.5502


Centos安装mysql(rpm终结版)

https://blog.csdn.net/m0_54925305/article/details/120476116?spm=1001.2014.3001.5502


centos安装hive3.1.2(精讲篇)

https://blog.csdn.net/m0_54925305/article/details/120554242?spm=1001.2014.3001.5502


Centos安装yum,wegt(完全配置篇)

https://blog.csdn.net/m0_54925305/article/details/120467143?spm=1001.2014.3001.5502


相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
1月前
|
安全 关系型数据库 MySQL
CentOS7仅安装部署MySQL80客户端
通过上述步骤,你可以在CentOS 7上成功安装并配置MySQL 8.0客户端。这个过程确保你能够使用MySQL客户端工具连接和管理远程的MySQL数据库,而不需要在本地安装MySQL服务器。定期更新MySQL客户端可以确保你使用的是最新的功能和安全修复。
155 16
|
2月前
|
消息中间件 关系型数据库 MySQL
ClickHouse如何整合数据源:MySQL、HDFS...
ClickHouse 是一个强大的列式数据库管理系统,支持多种数据源。常见的数据源包括外部数据源(如 HDFS、File、URL、Kafka 和 RabbitMQ)、数据库(如 MySQL 和 PostgreSQL)和流式数据(如 Stream 和 Materialized Views)。本文介绍了如何从 MySQL 和 HDFS 读取数据到 ClickHouse 中,包括创建数据库、映射表和查询数据的具体步骤。通过这些方法,用户可以方便地将不同来源的数据导入 ClickHouse 进行高效存储和分析。
131 3
|
3月前
|
关系型数据库 MySQL Linux
在 CentOS 7 中通过编译源码方式安装 MySQL 数据库的详细步骤,并与使用 RPM 包安装进行了对比
本文介绍了在 CentOS 7 中通过编译源码方式安装 MySQL 数据库的详细步骤,并与使用 RPM 包安装进行了对比。通过具体案例,读者可以了解如何准备环境、下载源码、编译安装、配置服务及登录 MySQL。编译源码安装虽然复杂,但提供了更高的定制性和灵活性,适用于需要高度定制的场景。
202 3
|
3月前
|
关系型数据库 MySQL Linux
在 CentOS 7 中通过编译源码安装 MySQL 数据库的详细步骤,并与使用 RPM 包安装进行了对比。
本文介绍了在 CentOS 7 中通过编译源码安装 MySQL 数据库的详细步骤,并与使用 RPM 包安装进行了对比。内容涵盖准备工作、下载源码、编译安装、配置服务、登录设置及实践心得,帮助读者根据需求选择最适合的安装方法。
223 2
|
3月前
|
关系型数据库 MySQL Linux
在 CentOS 7 中通过编译源码方式安装 MySQL 数据库的详细步骤,包括准备工作、下载源码、编译安装、配置 MySQL 服务、登录设置等。
本文介绍了在 CentOS 7 中通过编译源码方式安装 MySQL 数据库的详细步骤,包括准备工作、下载源码、编译安装、配置 MySQL 服务、登录设置等。同时,文章还对比了编译源码安装与使用 RPM 包安装的优缺点,帮助读者根据需求选择最合适的方法。通过具体案例,展示了编译源码安装的灵活性和定制性。
312 2
|
4月前
|
关系型数据库 MySQL Linux
在 CentOS 7 中通过编译源码方式安装 MySQL 数据库的详细步骤
本文介绍了在 CentOS 7 中通过编译源码方式安装 MySQL 数据库的详细步骤,包括准备工作、下载源码、编译安装、配置服务等,并与使用 RPM 包安装进行了对比,帮助读者根据需求选择合适的方法。编译源码安装虽然复杂,但提供了更高的定制性和灵活性。
327 2
|
4月前
|
关系型数据库 MySQL Linux
在 CentOS 7 中通过编译源码方式安装 MySQL 数据库的详细步骤
【10月更文挑战第7天】本文介绍了在 CentOS 7 中通过编译源码方式安装 MySQL 数据库的详细步骤,包括准备工作、下载源码、编译安装、配置 MySQL 服务、登录设置等。同时,文章还对比了编译源码安装与使用 RPM 包安装的优缺点,帮助读者根据自身需求选择合适的方法。
111 3
|
9月前
|
SQL 分布式计算 监控
Sqoop数据迁移工具使用与优化技巧:面试经验与必备知识点解析
【4月更文挑战第9天】本文深入解析Sqoop的使用、优化及面试策略。内容涵盖Sqoop基础,包括安装配置、命令行操作、与Hadoop生态集成和连接器配置。讨论数据迁移优化技巧,如数据切分、压缩编码、转换过滤及性能监控。此外,还涉及面试中对Sqoop与其他ETL工具的对比、实际项目挑战及未来发展趋势的讨论。通过代码示例展示了从MySQL到HDFS的数据迁移。本文旨在帮助读者在面试中展现Sqoop技术实力。
629 2
|
数据采集 SQL 分布式计算
数据处理 、大数据、数据抽取 ETL 工具 DataX 、Kettle、Sqoop
数据处理 、大数据、数据抽取 ETL 工具 DataX 、Kettle、Sqoop
1551 0
|
4月前
|
SQL 分布式计算 关系型数据库
Hadoop-21 Sqoop 数据迁移工具 简介与环境配置 云服务器 ETL工具 MySQL与Hive数据互相迁移 导入导出
Hadoop-21 Sqoop 数据迁移工具 简介与环境配置 云服务器 ETL工具 MySQL与Hive数据互相迁移 导入导出
140 3

热门文章

最新文章