Spark SQL CLI配置

简介: Spark SQL CLI配置

Spark SQL CLI配置

SparkSQL可以兼容Hive以便SparkSQL支持Hive表访问、UDF(用户自定义函数)以及Hive查询语言(HiveQL/HQL)。
若要使用SparkSQLCLI的方式访问操作Hive表数据,需要对SparkSQL进行如下所示的环境配置(Spark集群已搭建好),将SparkSQL连接到一个部署好的Hive上

  1. 将hive-site.xml复制到/home/hadoop/app/spark/conf/目录下,所有节点都执行(路径根据自己的输入)
    cd /home/hadoop/app/hive/conf/
    cp hive-site.xml /home/hadoop/app/spark/conf/
    发送给其他两个节点
    scp hive-site.xml hadoop@slave1:/home/hadoop/app/spark/conf/
    scp hive-site.xml hadoop@slave2:/home/hadoop/app/spark/conf/
  2. 在/home/hadoop/app/spark/conf/spark-env.sh文件中配置MySQL驱动。
    将MySQL驱动复制到所有节点的spark安装包的jars目录下,并在/home/Hadoop/app/spark/conf/spark-env.sh末尾添加:
    export SPARK_CLASSPATH=/home/hadoop/app/spark/jars/mysl-connector-java-5.1.32.jar启动 MySQL 服务
    1
  3. 启动 Hive的metastore 服务:hive--service metastore &
    2
  4. 修改日志级别:进入/home/hadoop/app/spark/conf,cp log4j.properties.template log4j.properties,修改文件
    ==log4jproperties==中==log4jrootCategory==的值,修改后==log4jrootCategory=WARN,console==
    3
  5. 重新启动Spark集群:进入/home/hadoop/app/spark/sbin/目录,执行./stop-all.sh,再执行./start-all.sh
  6. 启动spark-sql:进入/home/hadoop/app/spark/bin目录,执行./spark-sql开启Spark SQL CLI
    4
目录
打赏
0
0
0
0
18
分享
相关文章
如何在 Oracle 中配置和使用 SQL Profiles 来优化查询性能?
在 Oracle 数据库中,SQL Profiles 是优化查询性能的工具,通过提供额外统计信息帮助生成更有效的执行计划。配置和使用步骤包括:1. 启用自动 SQL 调优;2. 手动创建 SQL Profile,涉及收集、执行调优任务、查看报告及应用建议;3. 验证效果;4. 使用 `DBA_SQL_PROFILES` 视图管理 Profile。
Spark SQL向量化执行引擎框架Gluten-Velox在AArch64使能和优化
本文摘自 Arm China的工程师顾煜祺关于“在 Arm 平台上使用 Native 算子库加速 Spark”的分享,主要内容包括以下四个部分: 1.技术背景 2.算子库构成 3.算子操作优化 4.未来工作
218 0
【赵渝强老师】Spark SQL的数据模型:DataFrame
本文介绍了在Spark SQL中创建DataFrame的三种方法。首先,通过定义case class来创建表结构,然后将CSV文件读入RDD并关联Schema生成DataFrame。其次,使用StructType定义表结构,同样将CSV文件读入RDD并转换为Row对象后创建DataFrame。最后,直接加载带有格式的数据文件(如JSON),通过读取文件内容直接创建DataFrame。每种方法都包含详细的代码示例和解释。
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
171 0
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
139 0
通过Spark SQL实时归档SLS数据
我在前一篇文章介绍过基于Spark SQL实现对HDFS操作的实时监控报警。今天,我再举例说明一下如何使用Spark SQL进行流式应用的开发。
2597 0
5-10Can't connect to MySQL server on 'sh-cynosl-grp-fcs50xoa.sql.tencentcdb.com' (110)")
5-10Can't connect to MySQL server on 'sh-cynosl-grp-fcs50xoa.sql.tencentcdb.com' (110)")
|
9月前
|
SQL Server的并行实施如何优化?
【7月更文挑战第23天】SQL Server的并行实施如何优化?
226 13
|
9月前
|
SQL
解锁 SQL Server 2022的时间序列数据功能
【7月更文挑战第14天】要解锁SQL Server 2022的时间序列数据功能,可使用`generate_series`函数生成整数序列,例如:`SELECT value FROM generate_series(1, 10)。此外,`date_bucket`函数能按指定间隔(如周)对日期时间值分组,这些工具结合窗口函数和其他时间日期函数,能高效处理和分析时间序列数据。更多信息请参考官方文档和技术资料。
135 9
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等