SparkSQL整合Alluxio实操

简介: SparkSQL整合Alluxio实操

前言

在前面的文章我做了一个hive整合alluxio的文章,Hive整合Alluxio实操那部分其实是为了SparkSQL的整合做基础。

整合思路

  • SparkSQL的目标其实就是实现表的读写都在alluxio内就可以,这个只要是表的location指向alluxio的路径就可以。
  • 若需要新建的表也在放在alluxio的路径时,我需要调整库的默认路径

环境准备

alluxio的包自然是要引入的,我们在 spark-defaults.conf 中加入配置:

spark.driver.extraClassPath   /<PATH_TO_ALLUXIO>/client/alluxio-2.2.0-client.jar
spark.executor.extraClassPath /<PATH_TO_ALLUXIO>/client/alluxio-2.2.0-client.jar

其实对于spark本身而言,这样子一配置就算是集成alluxio了,因为spark只是计算框架,不需要做存储,从实现上来说也只是作为客户端可以对alluxio读写就可以。

我们做了配置之后需要同步到各个节点,我们然后在spark-shell下面可以测试一把:

先搞点数据进去,alluxio目录下面:

./bin/alluxio fs copyFromLocal LICENSE /Input
spark-shell --master --master spark://daas-service-01:7077

输入我们的计算任务:

val s = sc.textFile("alluxio://daas-service-01:19998/Input")
val double = s.map(line => line + line)
double.saveAsTextFile("alluxio://daas-service-01:19998/Output")

执行完成之后我们可以在alluxio中查看到生成的数据了。

SparkSql中表的操作

对表的操作其实很简单,我们只需要把表的location调整成alluxio的地址就行,这个和hive中是一样的:

hive> desc formatted t3;
Database:               default                  
Owner:                  hdfs                     
CreateTime:             Sun Mar 29 16:42:50 CST 2020     
LastAccessTime:         UNKNOWN                  
Retention:              0                        
Location:               alluxio://daas-service-01:19998/bip/hive_warehouse/t3    
Table Type:             MANAGED_TABLE            
......

我们去spark-sql的客户端进行操作:

spark-sql --master spark://daas-service-01:7077  

我们试着像我们的t3表中写入数据:

insert into t3 values(6);

从日志中我们可以看到数据是写入了alluxio中:

......
20/03/30 23:20:38 INFO [main] Hive: Renaming src: alluxio://daas-service-01:19998/bip/hive_warehouse/t3/.hive-staging_hive_2020-03-30_23-20-38_175_3335724859179367294-1/-ext-10000/part-00000-ca31676c-c4a5-43a4-b55a-1299264496dd-c000, dest: alluxio://daas-service-01:19998/bip/hive_warehouse/t3/part-00000-ca31676c-c4a5-43a4-b55a-1299264496dd-c000
......

库的默认路径修改

我们创建一个新表t4:

create table t4(id int);
spark-sql> desc formatted t4;
......
Database        default
Table   t4
Owner   hdfs
Created Time    Mon Mar 30 23:25:03 CST 2020
Last Access     Thu Jan 01 08:00:00 CST 1970
Created By      Spark 2.3.2
Location        hdfs://daas-service-01/bip/hive_warehouse/t4
......

我们看到新建的表其实还是在t4下面,这个时候效果就是,如果我们执行类似create table t4 as select * from t1这种操作的时候t4还是会在我们的hdfs路径中。当然,我们一样可以执行命令:

alter  table t4 set location "alluxio://daas-service-01:19998/bip/hive_warehouse/t4"

还有一种思路,我们的hive其实有库级别的默认路径的,使用hive的工具可以查询:

为了说明问题,我们先建立一个库csdn:

create database csdn;

我们执行命令:

${HIVE_HOME}/bin/metatool -listFSRoot

我们可以查看我们的库对应的根路径:

hdfs://daas-service-01/bip/hive_warehouse/csdn.db
hdfs://daas-service-01/bip/hive_warehouse/temp.db
hdfs://daas-service-01/bip/hive_warehouse
alluxio://daas-service-01:19998/bip/hive_warehouse/alluxio.db

有个alluxio是之前做实验生成的,我们切可以看到每一个路径其实就是对应我们库路径来着,我们也看到csdn的路径,我们把这个路径调整为alluxio的路径:

${HIVE_HOME}/bin/metatool --updateLocation alluxio://daas-service-01:19998/bip/hive_warehouse/csdn.db hdfs://daas-service-01/bip/hive_warehouse/csdn.db

再次执行:

${HIVE_HOME}/bin/metatool -listFSRoot

我们可以看到csdn下面的路径已经更新为alluxio的路径了:

Listing FS Roots..
alluxio://daas-service-01:19998/bip/hive_warehouse/csdn.db
hdfs://daas-service-01/bip/hive_warehouse/temp.db
hdfs://daas-service-01/bip/hive_warehouse
alluxio://daas-service-01:19998/bip/hive_warehouse/alluxio.db

我们在csdn下面建表:

spark-sql> use csdn;
spark-sql> create table t5(id int);

我们查看t5的信息:

spark-sql> desc formatted t5;
Table   t5
Owner   hdfs
Created Time    Mon Mar 30 23:42:24 CST 2020
Last Access     Thu Jan 01 08:00:00 CST 1970
Created By      Spark 2.3.2
Type    MANAGED
Provider        hive
Table Properties        [transient_lastDdlTime=1585582944]
Location        alluxio://daas-service-01:19998/bip/hive_warehouse/csdn.db/t5

我们看到t5已经在alluxio下面了。我们可以想得到,csdn下面的表其实都会在alluxio里面,我再来一张t6:

create table t6 as select id from default.t3;

我想,到了这里,应该明白了这个规律了~~

spark-sql> desc formatted t6;
......
Location        alluxio://daas-service-01:19998/bip/hive_warehouse/csdn.db/t6

直接指定location

直接指定路径其实和hive中是一样的,在SparkSql中完全没有问题的

CREATE TABLE u_user (
userid INT,
age INT,
gender CHAR(1),
occupation STRING,
zipcode STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '|'
STORED AS TEXTFILE
LOCATION 'alluxio://daas-service-01:19998/ml-100k';

小总结

  • SparkSQL操作的精髓其实就是操作表的location就可以了,从hive到SparkSQL是一样的,我们其实可以联想到presto上面也是一回事。
  • 生产环境也不会清一色的把表都放在alluxio,一个是也没那么多内存,另外来说也没必要,我们把经常读的表放在alluxio就可以了
  • 通过指定库路径的方式可以让新建的表也是alluxio的路径,这样有时候不需要来回操作location
目录
相关文章
|
7月前
|
分布式计算 大数据 Scala
【大数据技术Hadoop+Spark】Spark RDD创建、操作及词频统计、倒排索引实战(超详细 附源码)
【大数据技术Hadoop+Spark】Spark RDD创建、操作及词频统计、倒排索引实战(超详细 附源码)
355 1
|
4月前
|
机器学习/深度学习 存储 分布式计算
解释 Spark 在 Databricks 中的使用方式
【8月更文挑战第12天】
129 1
|
4月前
|
SQL 存储 分布式计算
|
7月前
|
SQL 存储 Java
Hive整合Alluxio实操
Hive整合Alluxio实操
89 0
|
7月前
|
存储 分布式计算 关系型数据库
bigdata-08-MapReduce原理到实战
bigdata-08-MapReduce原理到实战
88 0
|
7月前
|
SQL 缓存 分布式计算
Apache Zeppelin系列教程第九篇——Zeppelin NoteBook数据缓存
Apache Zeppelin系列教程第九篇——Zeppelin NoteBook数据缓存
161 0
|
SQL 存储 分布式计算
SparkSQL 读写_Hive_整合 | 学习笔记
快速学习 SparkSQL 读写_Hive_整合
176 0
SparkSQL 读写_Hive_整合 | 学习笔记
|
SQL 分布式计算 Java
SparkSQL 读写_Hive_写入数据_配置 | 学习笔记
快速学习 SparkSQL 读写_Hive_写入数据_配置
236 0
|
分布式计算 Spark
Spark RDD的实操教程(二)
Spark RDD的实操教程(二)
243 0
Spark RDD的实操教程(二)
|
存储 分布式计算 NoSQL
Spark RDD的实操教程(一)
Spark RDD的实操教程(一)
389 0
Spark RDD的实操教程(一)

热门文章

最新文章