Spark SQL 与Hive集成

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
云数据库 RDS MySQL,高可用系列 2核4GB
简介: 笔记

一、Spark SQL 与Hive集成(spark-shell)


(1)添加配置项目

第一步:

Hadoop集群的core-site.xml,hdfs-site.xml和hive的配置文件hive-site.xml拷贝到spark的conf的目录下

cp hive-site.xml /opt/Hadoop/spark/conf

第二步:

添加hive-site.xml中metastore的url的配置

<property>
        <name>hive.metastore.uris</name>
        <value>thrift://node1:9083</value>
</property>

第三步:

把hive中的MySQL的jar包上传到spark的jars目录下

cp mysql-connector-java-5.1.48-bin.jar /opt/Hadoop/spark/jars

第四步:

检查spark-env.sh文件中的Hadoop的配置项

HADOOP_CONF_DIR=/opt/Hadoop/hadoop/etc/hadoop


(2)启动服务

第一步:

检查mysql是否启动:

service mysqld status
Redirecting to /bin/systemctl status mysqld.service
● mysqld.service - MySQL Server
   Loaded: loaded (/usr/lib/systemd/system/mysqld.service; enabled; vendor preset: disabled)
   Active: active (running) since 三 2020-09-23 14:48:53 CST; 1h 10min ago
     Docs: man:mysqld(8)
           http://dev.mysql.com/doc/refman/en/using-systemd.html
  Process: 1712 ExecStart=/usr/sbin/mysqld --daemonize --pid-file=/var/run/mysqld/mysqld.pid $MYSQLD_OPTS (code=exited, status=0/SUCCESS)
  Process: 1179 ExecStartPre=/usr/bin/mysqld_pre_systemd (code=exited, status=0/SUCCESS)
 Main PID: 1714 (mysqld)
   CGroup: /system.slice/mysqld.service
           └─1714 /usr/sbin/mysqld --daemonize --pid-file=/var/run/mys...
9月 23 14:48:50 node1 systemd[1]: Starting MySQL Server...
9月 23 14:48:53 node1 systemd[1]: Started MySQL Server.

第二步:

启动hive中的metastore

bin/hive --service metastore
Starting Hive Metastore Server


(3)数据测试

第一步:

启动hive

bin/hive

第二步:

创建kfk数据库

create database kfk;

第三步:

创建test表

use kfk;
create table if not exists test(userid string,username string) 
row format delimited fields terminated by ' ' stored as textfile;

第四步:

准备数据

0001 java
0002 python
0003 c
0004 hadoop
0005 php
0006 linux
0007 spark

第五步:

导入数据

load data local inpath "/opt/datas/test1.txt" into table test;
hive (kfk)> select * from test;
OK
test.userid test.username
0001  java
0002  python
0003  c
0004  hadoop
0005  php
0006  linux
0007  spark
Time taken: 0.055 seconds, Fetched: 7 row(s)

第六步:

通过spark-shell查看数据

spark.sql("select * from kfk.test")
res0: org.apache.spark.sql.DataFrame = [userid: string, username: string]
scala> spark.sql("select * from kfk.test").show
+------+--------+
|userid|username|
+------+--------+
|  0001|    java|
|  0002|  python|
|  0003|       c|
|  0004|  hadoop|
|  0005|     php|
|  0006|   linux|
|  0007|   spark|
+------+--------+


(4)将数据集写入到MySQL

首先进入mysql数据库,并且创建test数据库

mysql -u root -p
mysql> create database test;

然后进入spark shell ,将spark sql分析hive中的数据写入到mysql中

scala> import java.util.Properties
import java.util.Properties
scala> val pro = new Properties()
pro: java.util.Properties = {}
scala> pro.setProperty("driver","com.mysql.jdbc.Driver")
res0: Object = null
scala> val df = spark.sql("select * from kfk.test")
df: org.apache.spark.sql.DataFrame = [userid: string, username: string]
scala> df.write.jdbc("jdbc:mysql://node1/test?user=root&password=199911","spark1",pro)

最后查看mysql数据库中表spark1的数据

mysql> select * from spark1;
+--------+----------+
| userid | username |
+--------+----------+
| 0001   | java     |
| 0002   | python   |
| 0003   | c        |
| 0004   | hadoop   |
| 0005   | php      |
| 0006   | linux    |
| 0007   | spark    |
+--------+----------+
7 rows in set (0.00 sec)


二、Spark SQL 与Hive集成(spark-sql)


第一步:启动hive中的metastore

bin/hive --service metastore
Starting Hive Metastore Server

第二步:启动spark-sql

bin/spark-sql

显示数据库,我们可以发现是和hive中是一样的,命令也是使用SQL语句

spark-sql (default)> show databases;
20/09/23 10:38:58 INFO CodeGenerator: Code generated in 164.478292 ms
databaseName
default
kfk
Time taken: 1.338 seconds, Fetched 2 row(s)
20/09/23 10:38:58 INFO SparkSQLCLIDriver: Time taken: 1.338 seconds, Fetched 2 row(s)
spark-sql (default)> use kfk;
spark-sql (default)> show tables;
20/09/23 10:39:34 INFO CodeGenerator: Code generated in 8.452303 ms
database  tableName isTemporary
kfk test  false
Time taken: 0.059 seconds, Fetched 1 row(s)
20/09/23 10:39:34 INFO SparkSQLCLIDriver: Time taken: 0.059 seconds, Fetched 1 row(s)
spark-sql (default)> select * from test;
userid  username
0001  java
0002  python
0003  c
0004  hadoop
0005  php
0006  linux
0007  spark
Time taken: 0.806 seconds, Fetched 7 row(s)

综上,Spark SQL 与Hive集成成功。


三、Spark SQL 与Hive集成(IDEA工具)


把Hadoop集群的core-site.xml,hdfs-sit.xml和hive的hive-site.xml文件拷贝到项目的resources目录下

package com.kfk.spark.sql
import org.apache.spark.sql.SparkSession
/**
 * @author : 蔡政洁
 * @email :caizhengjie888@icloud.com
 * @date : 2020/12/9
 * @time : 4:01 下午
 */
object HiveSpark {
    def main(args: Array[String]): Unit = {
        val spark = SparkSession
                .builder
                .appName("Spark Hive Example")
                .master("local")
                .config("spark.sql.warehouse.dir", "/Users/caizhengjie/Document/spark/spark-warehouse")
                .enableHiveSupport()
                .getOrCreate
        spark.sql("select * from hivespark.person").show()
    }
}

运行结果:

+------+------+--------+------+
|deptid|userid|username|salary|
+------+------+--------+------+
|dept-1|   001|  cherry|  1900|
|dept-1|   002|    alex|  5600|
|dept-1|   003|    jack|  7800|
|dept-2|   004|    jone|  2000|
|dept-2|   005|    lucy|  4500|
|dept-2|   006|    lili|  6300|
|dept-2|   007|   carry|  9000|
+------+------+--------+------+


四、Spark SQL之ThirftServer和beeline使用


Spark SQL也可以使用其JDBC / ODBC或命令行界面充当分布式查询引擎。

thriftserver和spark-shell/spark sql的区别:


spark-shell,spark-sql都是一个spark application

thriftserver,不管你启动多少个客户端(beeline/code),只要是连在一个thriftserver上,永远都是一个spark application,解决了一个数据共享的问题,多个客户端可以共享数据。

用thriftserver,在UI中能直接看到sql的执行计划,方便优化

总结

基于Spark的thirftserver来访问hive中的数据,可以让多个客户端连接到同一个服务器端,跑的是同一个application

Thirftserver作为服务端,beeline作为客户端来访问服务端,支持多个客户端同时访问,有助于多个客户端之间数据的共享


使用步骤:

第一步:启动metastore服务

bin/hive --service metastore
Starting Hive Metastore Server

第二步:启动thriftserver

sbin/start-thriftserver.sh


starting org.apache.spark.sql.hive.thriftserver.HiveThriftServer2, logging to /opt/Hadoop/spark/logs/spark-caizhengjie-org.apache.spark.sql.hive.thriftserver.HiveThriftServer2-1-node1.out


第三步:通过客户端beeline来连接

[caizhengjie@node1 spark]$ bin/beeline 
Beeline version 1.2.1.spark2 by Apache Hive
beeline> !connect jdbc:hive2://node1:10000
Connecting to jdbc:hive2://node1:10000
Enter username for jdbc:hive2://node1:10000: caizhengjie
Enter password for jdbc:hive2://node1:10000: ******
20/09/24 01:26:56 INFO Utils: Supplied authorities: node1:10000
20/09/24 01:26:56 INFO Utils: Resolved authority: node1:10000
20/09/24 01:26:56 INFO HiveConnection: Will try to open client transport with JDBC Uri: jdbc:hive2://node1:10000
Connected to: Spark SQL (version 2.4.6)
Driver: Hive JDBC (version 1.2.1.spark2)
Transaction isolation: TRANSACTION_REPEATABLE_READ

下面就可以通过SQL命令来来访问hive中的数据表

show databases;
+---------------+--+
| databaseName  |
+---------------+--+
| default       |
| kfk           |
+---------------+--+
use kfk;
+---------+--+
| Result  |
+---------+--+
+---------+--+
show tables;
+-----------+------------+--------------+--+
| database  | tableName  | isTemporary  |
+-----------+------------+--------------+--+
| kfk       | test       | false        |
+-----------+------------+--------------+--+
select * from test;
+---------+-----------+--+
| userid  | username  |
+---------+-----------+--+
| 0001    | java      |
| 0002    | python    |
| 0003    | c         |
| 0004    | hadoop    |
| 0005    | php       |
| 0006    | linux     |
| 0007    | spark     |
+---------+-----------+--+

最后,我通过测试,使用了2个客户端beeline的连接,查看web监控页面

30.png

其实就是一个application,每个beeline只作为一个job


相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
3月前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
233 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
1月前
|
SQL 分布式计算 Java
Spark SQL向量化执行引擎框架Gluten-Velox在AArch64使能和优化
本文摘自 Arm China的工程师顾煜祺关于“在 Arm 平台上使用 Native 算子库加速 Spark”的分享,主要内容包括以下四个部分: 1.技术背景 2.算子库构成 3.算子操作优化 4.未来工作
|
3月前
|
分布式计算 大数据 OLAP
AnalyticDB与大数据生态集成:Spark & Flink
【10月更文挑战第25天】在大数据时代,实时数据处理和分析变得越来越重要。AnalyticDB(ADB)是阿里云推出的一款完全托管的实时数据仓库服务,支持PB级数据的实时分析。为了充分发挥AnalyticDB的潜力,将其与大数据处理工具如Apache Spark和Apache Flink集成是非常必要的。本文将从我个人的角度出发,分享如何将AnalyticDB与Spark和Flink集成,构建端到端的大数据处理流水线,实现数据的实时分析和处理。
99 1
|
3月前
|
SQL JSON 分布式计算
【赵渝强老师】Spark SQL的数据模型:DataFrame
本文介绍了在Spark SQL中创建DataFrame的三种方法。首先,通过定义case class来创建表结构,然后将CSV文件读入RDD并关联Schema生成DataFrame。其次,使用StructType定义表结构,同样将CSV文件读入RDD并转换为Row对象后创建DataFrame。最后,直接加载带有格式的数据文件(如JSON),通过读取文件内容直接创建DataFrame。每种方法都包含详细的代码示例和解释。
|
4月前
|
SQL 机器学习/深度学习 数据库
SQL与Python集成:数据库操作无缝衔接
在开始之前,确保你已经安装了必要的Python库,如`sqlite3`(用于SQLite数据库)或`psycopg2`(用于PostgreSQL数据库)。这些库提供了Python与SQL数据库之间的接口。
|
4月前
|
SQL 数据库连接 数据库
管理系统中的Visual Studio与SQL集成技巧与方法
在现代软件开发和管理系统中,Visual Studio(VS)作为强大的集成开发环境(IDE),与SQL数据库的紧密集成是构建高效、可靠应用程序的关键
|
4月前
|
SQL 机器学习/深度学习 数据采集
SQL与Python集成:数据库操作无缝衔接2a.bijius.com
Python与SQL的集成是现代数据科学和工程实践的核心。通过有效的数据查询、管理与自动化,可以显著提升数据分析和决策过程的效率与准确性。随着技术的不断发展,这种集成的应用场景将更加广泛,为数据驱动的创新提供更强大的支持。
|
4月前
|
SQL 机器学习/深度学习 数据库
SQL与Python集成:数据库操作无缝衔接
1. Python与SQL集成的关键步骤 在开始之前,确保你已经安装了必要的Python库,如`sqlite3`(用于SQLite数据库)或`psycopg2`(用于PostgreSQL数据库)。这些库提供了Python与SQL数据库之间的接口。
|
4月前
|
SQL 分布式计算 大数据
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
131 0
|
4月前
|
SQL 分布式计算 算法
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
125 0