物流项目中SparkSQL的相关调优

简介: 编写完成从Kafka消费数据,打印控制台上,其中创建SparkSession实例对象时,需要设置参数值。

实时ETL开发之流计算程序【编程】


编写完成从Kafka消费数据,打印控制台上,其中创建SparkSession实例对象时,需要设置参数值。


package cn.itcast.logistics.etl.realtime
import cn.itcast.logistics.common.Configuration
import org.apache.commons.lang3.SystemUtils
import org.apache.spark.SparkConf
import org.apache.spark.sql.streaming.OutputMode
import org.apache.spark.sql.{DataFrame, SparkSession}
/**
 * 编写StructuredStreaming程序,实时从Kafka消息数据(物流相关数据和CRM相关数据),打印控制台Console
   * 1. 初始化设置Spark Application配置
   * 2. 判断Spark Application运行模式进行设置
   * 3. 构建SparkSession实例对象
   * 4. 初始化消费物流Topic数据参数
   * 5. 消费物流Topic数据,打印控制台
   * 6. 初始化消费CRM Topic数据参数
   * 7. 消费CRM Topic数据,打印控制台
   * 8. 启动流式应用,等待终止
 */
object LogisticsEtlApp {
  def main(args: Array[String]): Unit = {
    // step1. 构建SparkSession实例对象,设置相关属性参数值
    // 1. 初始化设置Spark Application配置
    val sparkConf = new SparkConf()
        .setAppName(this.getClass.getSimpleName.stripSuffix("$"))
      .set("spark.sql.session.timeZone", "Asia/Shanghai")
      .set("spark.sql.files.maxPartitionBytes", "134217728")
      .set("spark.sql.files.openCostInBytes", "134217728")
      .set("spark.sql.shuffle.partitions", "3")
      .set("spark.sql.autoBroadcastJoinThreshold", "67108864")
    // 2. 判断Spark Application运行模式进行设置
    if (SystemUtils.IS_OS_WINDOWS || SystemUtils.IS_OS_MAC) {
      //本地环境LOCAL_HADOOP_HOME
      System.setProperty("hadoop.home.dir", Configuration.LOCAL_HADOOP_HOME)
      //设置运行环境和checkpoint路径
      sparkConf
        .set("spark.master", "local[3]")
        .set("spark.sql.streaming.checkpointLocation", Configuration.SPARK_APP_WIN_CHECKPOINT_DIR)
    } else {
      //生产环境
      sparkConf
        .set("spark.master", "yarn")
        .set("spark.sql.streaming.checkpointLocation", Configuration.SPARK_APP_DFS_CHECKPOINT_DIR)
    }
    // 3. 构建SparkSession实例对象
    val spark: SparkSession = SparkSession.builder()
        .config(sparkConf)
      .getOrCreate()
    import spark.implicits._
    // step2. 从Kafka实时消费数据,设置Kafka Server地址和Topic名称
    // step3. 将ETL转换后数据打印到控制台,启动流式应用
    // 4. 初始化消费物流Topic数据参数
    val logisticsDF: DataFrame = spark.readStream
      .format("kafka")
      .option("kafka.bootstrap.servers", "node2.itcast.cn:9092")
      .option("subscribe", "logistics")
      .option("maxOffsetsPerTrigger", "100000")
      .load()
    // 5. 消费物流Topic数据,打印控制台
    logisticsDF.writeStream
      .queryName("query-logistics-console")
      .outputMode(OutputMode.Append())
      .format("console")
      .option("numRows", "10")
      .option("truncate", "false")
      .start()
    // 6. 初始化消费CRM Topic数据参数
    val crmDF: DataFrame = spark.readStream
      .format("kafka")
      .option("kafka.bootstrap.servers", "node2.itcast.cn:9092")
      .option("subscribe", "crm")
      .option("maxOffsetsPerTrigger", "100000")
      .load()
    // 7. 消费CRM Topic数据,打印控制
    crmDF.writeStream
      .queryName("query-crm-console")
      .outputMode(OutputMode.Append())
      .format("console")
      .option("numRows", "10")
      .option("truncate", "false")
      .start()
    // step4. 流式应用启动以后,等待终止,关闭资源
    // 8. 启动流式应用,等待终止
    spark.streams.active.foreach(query => println("启动Query:" + query.name))
    spark.streams.awaitAnyTermination()
  }
}


SparkSQL 参数调优设置:


  • 1)、设置会话时区:set("spark.sql.session.timeZone", "Asia/Shanghai")


  • 2)、设置读取文件时单个分区可容纳的最大字节数


set("spark.sql.files.maxPartitionBytes", "134217728")


  • 3)、设置合并小文件的阈值:set("spark.sql.files.openCostInBytes", "134217728")


  • 4)、设置 shuffle 分区数:set("spark.sql.shuffle.partitions", "4")


  • 5)、设置执行 join 操作时能够广播给所有 worker 节点的最大字节大小


set("spark.sql.autoBroadcastJoinThreshold", "67108864")

目录
相关文章
|
3月前
|
分布式计算 资源调度 监控
spark 监控梳理
spark 监控梳理
spark 监控梳理
|
分布式计算 Hadoop Java
PySpark数据分析基础:Spark本地环境部署搭建
PySpark数据分析基础:Spark本地环境部署搭建
1113 0
PySpark数据分析基础:Spark本地环境部署搭建
|
分布式计算 Spark
【Spark 调优】Spark 开发调优的十大原则
【Spark 调优】Spark 开发调优的十大原则
179 0
【Spark 调优】Spark 开发调优的十大原则
|
机器学习/深度学习 缓存 分布式计算
建议收藏!详细解析如何对spark进行全方位的调优
建议收藏!详细解析如何对spark进行全方位的调优
157 0
建议收藏!详细解析如何对spark进行全方位的调优
|
SQL 分布式计算 大数据
SparkSQL在有赞的实践
作者: 邹晨俊 有赞大数据离线计算负责人 本文介绍了SparkSQL在有赞数据仓库的实践,以及离线任务从Hive向SparkSQL迁移的一些经验
8404 0
|
SQL 分布式计算 安全
SparkSQL ThriftServer 安全相关功能的现状分析
SparkSQL Thrift Server 是 Spark SQL基于 Apache Hive的 HiveServer2开发的,通过SparkSQL Thrift Server 可以使 Spark SQL支持 JDBC/ODBC 的连接方式,用户可以通过 JDBC and ODBC 协议,在Spark上执行 SQL。
3383 0
SparkSQL实践与优化
SQL实践:1.多数据源支持 2.多数据类型支持 3.多组件对接
2159 0
|
存储 分布式计算 大数据
《Spark与Hadoop大数据分析》——2.5 小结
本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第2章,第2.5节,作者 [美]文卡特·安卡姆(Venkat Ankam),译 吴今朝,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1282 0
|
分布式计算 Hadoop Spark
《Spark与Hadoop大数据分析》——3.7 小结
本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第3章,第3.7节,作者 [美]文卡特·安卡姆(Venkat Ankam),译 吴今朝,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1085 0
|
分布式计算 Hadoop 数据挖掘
《Spark与Hadoop大数据分析》——1.5 小结
本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第1章,第1.5节,作者 [美]文卡特·安卡姆(Venkat Ankam),译 吴今朝,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1320 0

热门文章

最新文章