利用Sqoop实现MySQL与HDFS数据互导

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS PostgreSQL,集群系列 2核4GB
简介: 利用Sqoop将MySQL中的数据表导入到hdfs端:(表格的主键要存在) 首先在MySQL的test数据库中有如下表格person: 在终端输入以下命令即可实现将person表导入到hdfs端:sqoop impo...

利用Sqoop将MySQL中的数据表导入到hdfs端:(表格的主键要存在)
首先在MySQL的test数据库中有如下表格person:
这里写图片描述
在终端输入以下命令即可实现将person表导入到hdfs端:

sqoop import \
--connect jdbc:mysql://localhost/test \
--username root --password 147369 \
--table person \
--target-dir /vagrant/person_hdfs \
--null-non-string '\\N';

其中import表示导入数据,connect行命令表示连接MySQL的test数据库,username和password为MySQL的用户名和密码,table为要导入的表格,target-dir为hdfs的目标位置,null-non-string ‘\N’会将数据库表中的null值转化为Hive和Impala中的\N,便于兼容。
运行结果如下:
这里写图片描述
前往hdfs网页查看:
这里写图片描述

利用Sqoop将hdfs端的数据表导入到MySQL:
1.查看hdfs端数据的内容:
这里写图片描述
可知:person目录下的数据以’,’为分界符。我们的目标是将person目录下的全部数据导入到MySQL。
2.在MySQL中创建相应格式的表格:

use test
create table p(id int primary key, age int, sex int);

3.在终端输入以下命令即可实现将hdfs端person目录下的数据导入到MySQL中:

sqoop export \
> --connect jdbc:mysql://localhost/test \
> --username root --password 147369 \
> --table p \
> --export-dir /user/hive/warehouse/person/* \
> --input-fields-terminated-by ',';

其中export命令表示导出数据,table为MySQL中test数据库的表格p,export-dir为hdfs端需要导出的目录,input-fields-terminated-by ‘,’表示hdfs端需要导出的数据的分界符为’,’。
4.前往MySQL数据库查看:
这里写图片描述
Bingo,这样我们就利用Sqoop实现MySQL与HDFS数据互导。



本次分享到此结束,欢迎大家交流与批评~~

相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
13天前
|
SQL 存储 分布式计算
HDFS数据(跨集群)迁移
HDFS数据(跨集群)迁移
|
2月前
|
分布式计算 Hadoop
|
2月前
|
分布式计算 Hadoop 关系型数据库
实时计算 Flink版操作报错合集之Hadoop在将文件写入HDFS时,无法在所有指定的数据节点上进行复制,该如何解决
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
|
3月前
|
存储 分布式计算 Hadoop
Hadoop的HDFS数据均衡
【6月更文挑战第13天】
134 3
|
3月前
|
SQL 关系型数据库 MySQL
基于Hive的天气情况大数据分析系统(通过hive进行大数据分析将分析的数据通过sqoop导入到mysql,通过Django基于mysql的数据做可视化)
基于Hive的天气情况大数据分析系统(通过hive进行大数据分析将分析的数据通过sqoop导入到mysql,通过Django基于mysql的数据做可视化)
|
4月前
|
存储 分布式计算 Hadoop
hadoop节点HDFS数据分片过程
【5月更文挑战第18天】
44 1
|
4月前
|
存储 分布式计算 Hadoop
|
4月前
|
存储 分布式计算 资源调度
|
3月前
|
消息中间件 分布式计算 关系型数据库
使用Apache Spark从MySQL到Kafka再到HDFS的数据转移
使用Apache Spark从MySQL到Kafka再到HDFS的数据转移
|
4月前
|
SQL 存储 关系型数据库
Hive 和 HDFS、MySQL 之间的关系
Hive是Hadoop上的数据仓库工具,用HiveQL进行大数据查询;HDFS是分布式文件系统,用于存储大规模数据,常与Hive结合,提供数据存储和高可靠性。MySQL是RDBMS,适用于结构化数据管理,在大数据环境里可存储Hive的元数据,提升查询效率和元数据管理。三者协同处理数据管理和分析任务。

热门文章

最新文章

下一篇
DDNS