开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

sparksql中cte物化方式是怎样的

sparksql中为什么没有类似hive.optimize.cte.materialize.threshold参数,用于打开将with as创建的临时表给复用起来,比如一个with as创建的表a,在后续sql中引用这个表a 3次以上,并且有join类操作,在hive中有sparksql中有hive.optimize.cte.materialize.threshold参数使用,调整执行计划,在sparksql中没有找到相关参数,看执行计划这个临时表中逻辑会重复查表执行引用次数,是出于什么考虑,还是有什么方式可以达到这个目的

展开
收起
loouchris 2023-03-23 20:16:33 1381 0
3 条回答
写回答
取消 提交回答
  • 月移花影,暗香浮动

    在 Spark SQL 中,CTE (Common Table Expression)是一种查询方式,也可以称为 “WITH” 查询。CTE 可以让我们在当前 SQL 查询中创建一个临时的命名查询结果集,并且可以重用这个结果集。在 Spark SQL 中,支持两种 CTE 物化方式:递归方式和迭代方式。

    1. 递归方式:递归方式是基于递归定义的一种方式,它根据初始条件不断递归地进行计算,直到满足终止条件为止。在 Spark SQL 中,如果使用递归 CTE,需要在 WITH 关键字之后使用 RECURSIVE 关键字。递归 CTE 的语法如下:

      WITH RECURSIVE cte_name AS (
         initial_query
         UNION ALL
         recursive_query
      )
      SELECT *
      FROM cte_name;
      
    2. 迭代方式:迭代方式是基于迭代计算的一种方式,它通过循环计算来不断逼近最终结果。在 Spark SQL 中,如果使用迭代 CTE,需要在 WITH 关键字之后使用 ITERATION 关键字。迭代 CTE 的语法如下:

      WITH ITERATION cte_name AS (
         initial_query
      )
      SELECT *
      FROM cte_name
      WHERE termination_condition;
      

    需要注意的是,Spark SQL 中的 CTE 物化方式取决于查询优化器的实现和数据分布情况。有些情况下,CTE 可能会被内联或临时表物化,以优化查询性能。

    2023-03-24 11:22:53
    赞同 展开评论 打赏
  • SparkSQL中没有类似hive.optimize.cte.materialize.threshold参数的原因是,SparkSQL的执行计划是基于RDD的,而不是基于Hive的优化器。因此,SparkSQL中没有类似Hive的优化器来处理CTE(with as)语句。但是,SparkSQL提供了一些优化技术来处理CTE语句,例如使用Spark的缓存机制来缓存CTE表,以便在后续查询中重用。此外,SparkSQL还提供了一些优化技术来减少重复查表的次数,例如使用Broadcast Join来避免重复查表。因此,虽然SparkSQL中没有类似hive.optimize.cte.materialize.threshold参数的设置,但是可以通过使用SparkSQL提供的优化技术来达到类似的效果。

    2023-03-24 08:59:59
    赞同 展开评论 打赏
  • 发表文章、提出问题、分享经验、结交志同道合的朋友

    可以使用CACHE TABLE或CREATE TEMP VIEW语句将CTE的结果缓存到内存中,以便在后续查询中重复使用。

    2023-03-23 20:36:50
    赞同 展开评论 打赏

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载