备案控制台

开发者社区大数据文章正文

Spark SQL CLI配置

2023-07-12 202

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Spark SQL CLI配置

Spark SQL CLI配置

SparkSQL可以兼容Hive以便SparkSQL支持Hive表访问、UDF(用户自定义函数)以及Hive查询语言(HiveQL/HQL)。
若要使用SparkSQLCLI的方式访问操作Hive表数据，需要对SparkSQL进行如下所示的环境配置(Spark集群已搭建好)，将SparkSQL连接到一个部署好的Hive上

将hive-site.xml复制到/home/hadoop/app/spark/conf/目录下，所有节点都执行(路径根据自己的输入）
cd /home/hadoop/app/hive/conf/
cp hive-site.xml /home/hadoop/app/spark/conf/
发送给其他两个节点
scp hive-site.xml hadoop@slave1:/home/hadoop/app/spark/conf/
scp hive-site.xml hadoop@slave2:/home/hadoop/app/spark/conf/
在/home/hadoop/app/spark/conf/spark-env.sh文件中配置MySQL驱动。
将MySQL驱动复制到所有节点的spark安装包的jars目录下，并在/home/Hadoop/app/spark/conf/spark-env.sh末尾添加:
export SPARK_CLASSPATH=/home/hadoop/app/spark/jars/mysl-connector-java-5.1.32.jar启动 MySQL 服务
启动 Hive的metastore 服务:hive--service metastore &
修改日志级别:进入/home/hadoop/app/spark/conf，cp log4j.properties.template log4j.properties，修改文件
==log4jproperties==中==log4jrootCategory==的值，修改后==log4jrootCategory=WARN,console==
重新启动Spark集群:进入/home/hadoop/app/spark/sbin/目录，执行./stop-all.sh，再执行./start-all.sh
启动spark-sql:进入/home/hadoop/app/spark/bin目录，执行./spark-sql开启Spark SQL CLI

文章标签：

分布式计算

SQL

关系型数据库

MySQL

Spark

Hadoop

HIVE

关键词：

apache spark SQL

SQL配置

apache spark配置

SQL spark

SQL cli

故事未完·

目录

相关文章

赵渝强老师

|

2月前

|

SQL JSON 分布式计算

【赵渝强老师】Spark SQL的数据模型：DataFrame

本文介绍了在Spark SQL中创建DataFrame的三种方法。首先，通过定义case class来创建表结构，然后将CSV文件读入RDD并关联Schema生成DataFrame。其次，使用StructType定义表结构，同样将CSV文件读入RDD并转换为Row对象后创建DataFrame。最后，直接加载带有格式的数据文件（如JSON），通过读取文件内容直接创建DataFrame。每种方法都包含详细的代码示例和解释。

赵渝强老师

58 0 0

武子康

|

3月前

|

SQL 分布式计算大数据

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程（一）

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程（一）

武子康

100 0 0

武子康

|

3月前

|

SQL 分布式计算算法

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程（二）

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程（二）

武子康

117 0 0

武子康

|

3月前

|

SQL 分布式计算 Java

大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源：JSON、CSV、JDBC、Hive

大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源：JSON、CSV、JDBC、Hive

武子康

82 0 0

武子康

|

3月前

|

SQL 分布式计算大数据

大数据-94 Spark 集群 SQL DataFrame & DataSet & RDD 创建与相互转换 SparkSQL

大数据-94 Spark 集群 SQL DataFrame & DataSet & RDD 创建与相互转换 SparkSQL

武子康

102 0 0

游客j4mujezz7vm7y

|

4月前

|

关系型数据库 MySQL 网络安全

5-10Can't connect to MySQL server on 'sh-cynosl-grp-fcs50xoa.sql.tencentcdb.com' (110)")

5-10Can't connect to MySQL server on 'sh-cynosl-grp-fcs50xoa.sql.tencentcdb.com' (110)")

游客j4mujezz7vm7y

52 0 0

sunrr

|

6月前

|

SQL 存储监控

SQL Server的并行实施如何优化？

【7月更文挑战第23天】SQL Server的并行实施如何优化？

sunrr

154 13 14

小王老师呀

|

6月前

|

SQL

解锁 SQL Server 2022的时间序列数据功能

【7月更文挑战第14天】要解锁SQL Server 2022的时间序列数据功能，可使用`generate_series`函数生成整数序列，例如：`SELECT value FROM generate_series(1, 10)。此外，`date_bucket`函数能按指定间隔（如周）对日期时间值分组，这些工具结合窗口函数和其他时间日期函数，能高效处理和分析时间序列数据。更多信息请参考官方文档和技术资料。

小王老师呀

92 9 9

以山向海

|

6月前

|

SQL 存储网络安全

关系数据库SQLserver 安装 SQL Server

【7月更文挑战第26天】

以山向海

84 6 6

小王老师呀

|

6月前

|

存储 SQL C++

对比 SQL Server中的VARCHAR(max) 与VARCHAR(n) 数据类型

【7月更文挑战7天】SQL Server 中的 VARCHAR(max) vs VARCHAR(n): - VARCHAR(n) 存储最多 n 个字符（1-8000），适合短文本。 - VARCHAR(max) 可存储约 21 亿个字符，适合大量文本。 - VARCHAR(n) 在处理小数据时性能更好，空间固定。 - VARCHAR(max) 对于大文本更合适，但可能影响性能。 - 选择取决于数据长度预期和业务需求。

小王老师呀

522 1 1

热门文章

最新文章

SQL0286N. DB2表空间的pagesize问题

SQL SERVER2005中的那些事

sql中执行语句

SQL Server: Get table primary key and Foreign Key using sql query

SQL Server 连接基础知识

oracle dba 常用sql語句

sql语句练习

ORACLE SQL：经典查询练手第二篇

SQL 已有数据的表创建标识列

SqlServer2005 数据库同步配置详解

spark用于分析数据并将数据保存到数据库中是

数据分享|Python、Spark SQL、MapReduce决策树、回归对车祸发生率影响因素可视化分析

如何解决Spark在深度学习中的资源消耗问题？

Spark在深度学习中的优缺点是什么？

使用Spark进行机器学习

Spark是一个基于内存的通用数据处理引擎，可以进行大规模数据处理和分析

【Spark】Spark基础教程知识点

DataWorks产品使用合集之在DataWorks中，通过spark访问外网的步骤如何解决

MaxCompute操作报错合集之大数据计算的MaxCompute Spark引擎无法读取到表，是什么原因

MaxCompute操作报错合集之spark3.1.1通过resource目录下的conf文件配置，报错如何解决

相关课程

更多

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

SQL完全自学手册

SQL Server on Linux入门教程

SQL入门与实践

数据库及SQL/MySQL基础

SQL进阶及查询

相关电子书

更多

SQL Server 2017

GeoMesa on Spark SQL

原生SQL on Hadoop引擎- Apache HAWQ 2.x最新技术解密malili

相关实验场景

更多

PolarDB for AI：在数据库中通过SQL实现AI能力

玩转MaxCompute SQL! 30分钟搞定数据分析挖掘

使用SQL语句实现数据表管理

使用SQL语句实现数据插入、修改和删除操作

使用SQL语句实现数据查询操作

使用SQL语句管理索引

下一篇

DataWorks智能交互式数据开发与分析之旅