Hive【基础知识 02-1】【Hive CLI 命令行工具使用】【准备阶段-建库、建表、导入数据、编写测试SQL脚本并上传HDFS】

简介: 【4月更文挑战第7天】Hive【基础知识 02-1】【Hive CLI 命令行工具使用】【准备阶段-建库、建表、导入数据、编写测试SQL脚本并上传HDFS】

why

【为了测试CLI和Beeline命令行工具,这里先创建一个数据库和表并导入一些数据】

1. 创建数据库

# 创建数据库
hive> CREATE DATABASE IF NOT EXISTS hive_test
    > COMMENT 'hive database for test'
    > LOCATION '/tmp/hive/test'
    > WITH DBPROPERTIES ('create'='yuanzhengme');
OK
Time taken: 0.453 seconds

可以看到HDFS的test目录已被创建:

在这里插入图片描述
可以看到MySQL数据库的元数据也被录入了:

在这里插入图片描述

2. 创建表

# 创建表 【这里不再贴出hive的日志】
hive> use hive_test;
hive> create table if not exists hive_test.word_count(word STRING, count INT) row format delimited fields terminated by ',' lines terminated by '\n' stored as textfile;

3. 导入数据

WordCount.txt 文件内容如下:

[root@tcloud wordCount]# cat ./WordCount.txt
spark,3
hive,3
hadoop,2
kafka,1
hbase,1
# 导入数据 【这里不再贴出hive的日志】
hive> load data local inpath '/home/spark/testFile/wordCount/WordCount.txt' overwrite into table word_count;

验证一下:

可以看到hdfs是已经有WordCount.txt文件了:

在这里插入图片描述
可以看到MySQL数据库的元数据也被录入了:

在这里插入图片描述验证一下:

hive> select * from word_count;
OK
spark   3
hive    3
hadoop  2
kafka   1
hbase   1
Time taken: 5.871 seconds, Fetched: 5 row(s)

4. 编写测试SQL脚本并上传HDFS

-- 其中  hive_test.sql 内容如下
select * from hive_test.word_count;

添加到hdfs:

[root@tcloud ~]# hdfs dfs -put /home/hive/testFile/hive_test.sql /tmp/hive/test

可以看到hdfs目标文件已经有hive_test.sql文件了:
在这里插入图片描述
读取一下:

[root@tcloud ~]# hdfs dfs -cat /tmp/hive/test/hive_test.sql
select * from hive_test.word_count;
目录
相关文章
|
1月前
|
SQL 关系型数据库 MySQL
Sqoop【付诸实践 01】Sqoop1最新版 MySQL与HDFS\Hive\HBase 核心导入导出案例分享+多个WRAN及Exception问题处理(一篇即可学会在日常工作中使用Sqoop)
【2月更文挑战第9天】Sqoop【付诸实践 01】Sqoop1最新版 MySQL与HDFS\Hive\HBase 核心导入导出案例分享+多个WRAN及Exception问题处理(一篇即可学会在日常工作中使用Sqoop)
118 7
|
21天前
|
SQL 分布式计算 HIVE
Hive Cli / HiveServer2 中使用 dayofweek 函数引发的BUG!
在Hive 3.1.2和Spark 3.0.2集群环境中,遇到`dayofweek`函数bug。当`create_date`为字符串类型时,`dayofweek`函数结果错位。修复方法是将`create_date`转换为`date`类型。在Spark SQL中,原始代码能正常运行,未出现此问题。因此建议在Hive中使用转换后的日期类型以避免错误。
|
21天前
|
SQL 存储 关系型数据库
Hive 和 HDFS、MySQL 之间的关系
Hive是Hadoop上的数据仓库工具,用HiveQL进行大数据查询;HDFS是分布式文件系统,用于存储大规模数据,常与Hive结合,提供数据存储和高可靠性。MySQL是RDBMS,适用于结构化数据管理,在大数据环境里可存储Hive的元数据,提升查询效率和元数据管理。三者协同处理数据管理和分析任务。
|
1月前
|
运维 安全 测试技术
测试基础 学习测试你必须要知道的基础知识
测试基础 学习测试你必须要知道的基础知识
12 3
|
1月前
|
SQL 存储 分布式计算
Hive详解、配置、数据结构、Hive CLI
Hive详解、配置、数据结构、Hive CLI
50 0
Hive详解、配置、数据结构、Hive CLI
|
1月前
|
SQL XML 数据库
sql导入数据库命令
在SQL Server中,数据库导入可通过多种方式实现:1) 使用SSMS的“导入数据”向导从各种源(如Excel、CSV)导入;2) BULK INSERT语句适用于导入文本文件;3) bcp命令行工具进行批量数据交换;4) OPENROWSET函数直接从外部数据源(如Excel)插入数据。在操作前,请记得备份数据库,并可能需对数据进行预处理以符合SQL Server要求。注意不同方法可能依版本和配置而异。
|
1月前
|
SQL 存储 分布式计算
Hive【基础知识 02-2】【Hive CLI 命令行工具使用】【详细举例-包含测试脚本文件】
【4月更文挑战第7天】Hive【基础知识 02-2】【Hive CLI 命令行工具使用】【详细举例-包含测试脚本文件】
31 0
|
1月前
|
分布式计算 Hadoop 测试技术
Hadoop【基础知识 05】【HDFS的JavaAPI】(集成及测试)
【4月更文挑战第5天】Hadoop【基础知识 05】【HDFS的JavaAPI】(集成及测试)
65 8
|
9天前
|
机器学习/深度学习 人工智能 自然语言处理
深入探索软件测试:策略、工具与未来趋势
【5月更文挑战第38天】 在软件开发的生命周期中,测试环节扮演着至关重要的角色。随着技术的不断进步和市场需求的多样化,传统的测试方法已逐渐不能满足现代软件项目的需求。本文旨在提供一个全面的软件测试概述,包括最新的测试策略、常用工具以及预测未来的发展趋势。通过分析自动化测试的效益、持续集成的重要性以及人工智能在测试中的应用,文章将帮助读者构建一个更高效、更智能的软件测试环境。
|
2天前
|
机器学习/深度学习 人工智能 jenkins
探索自动化测试工具的选择与应用
在软件开发生命周期中,软件测试是确保质量的重要环节。随着自动化技术的发展,自动化测试工具的选择和应用变得至关重要。这篇文章将深入探讨如何选择适合的自动化测试工具,并结合实例分析其实际应用效果,从而为开发团队提供有效的指导。

热门文章

最新文章