用spark sql执行操作hive

简介: 用spark sql执行操作hive

一、安装:(注意版本兼容)

hadoop2.7.2,hive1.3,spark1.6

二、相关配置:

  1. hive配置hive-site.xml
  2. 把hive-site.xml拷贝至spark的conf目录下并添加:【如果不能运行,这配置去掉重试】
<property>
<name>hive.metastore.uris</name>
<value>thrift://192.168.234.128:9083</value>
</property>

注:192.168.234.128是hive的主机

  1. 把hadoop目录/hadoop2.7.2/etc/hadoop/的core-site.xml与hdfs-site.xml拷贝至spark下的conf目录下(分发)
  2. 把hive的lib目录下的mysql-connector-java-5.1.31.jar拷贝至spark的jar目录下

三、运行:

  1. 在hive上执行:
nohup hive --service metastore > metastore.log 2>&1 &
hive --service hiveserver2 --hiveconf hive.server2.thrift.port=10000 &
  1. 在spark上执行:
/home/hadoop/apps/spark/bin/spark-sql \
--master spark://hadoop01:7077 \
--executor-memory 512m \
--total-executor-cores 2 \
--driver-class-path /home/hadoop/apps/hive/lib/mysql-connector-java-5.0.8-bin.jar 

或者,建议不加参数

bin/spark-sql 

四、执行sql语句:

Show databases;
Show tables;

注:此操作是直接操作hive上的表

目录
相关文章
|
1月前
|
SQL JSON 分布式计算
【赵渝强老师】Spark SQL的数据模型:DataFrame
本文介绍了在Spark SQL中创建DataFrame的三种方法。首先,通过定义case class来创建表结构,然后将CSV文件读入RDD并关联Schema生成DataFrame。其次,使用StructType定义表结构,同样将CSV文件读入RDD并转换为Row对象后创建DataFrame。最后,直接加载带有格式的数据文件(如JSON),通过读取文件内容直接创建DataFrame。每种方法都包含详细的代码示例和解释。
|
2月前
|
SQL 分布式计算 Hadoop
Hadoop-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
Hadoop-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
89 3
|
2月前
|
SQL 分布式计算 大数据
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
78 0
|
2月前
|
SQL 分布式计算 算法
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
95 0
|
2月前
|
SQL 分布式计算 Java
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
68 0
|
2月前
|
SQL 分布式计算 大数据
大数据-94 Spark 集群 SQL DataFrame & DataSet & RDD 创建与相互转换 SparkSQL
大数据-94 Spark 集群 SQL DataFrame & DataSet & RDD 创建与相互转换 SparkSQL
85 0
|
2月前
|
SQL 存储 分布式计算
大数据-93 Spark 集群 Spark SQL 概述 基本概念 SparkSQL对比 架构 抽象
大数据-93 Spark 集群 Spark SQL 概述 基本概念 SparkSQL对比 架构 抽象
51 0
|
2月前
|
SQL 分布式计算 关系型数据库
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
112 0
|
4月前
|
SQL 存储 分布式计算