开发者社区> 问答> 正文

通过spark-thriftserver读取hive表执行sql时,tasks 数量怎么设置

我在使用spark-thriftserver的方式,通过beeline执行sql的时候,thriftserver会扫描所查询hive表的所有分区(hdfs上面的路径)然后有多少个路径,就会自动生成多少个task,这个task的数量可以调整吗?或者这个流程怎么优化?

展开
收起
游客iwhrjhvjoyqts 2019-07-05 15:30:22 116837 0
1 条回答
写回答
取消 提交回答
  • 长期从事大数据系统与产品研发。

    可以添加inputformat相关的配置,比如spark.hadoop.mapreduce.input.fileinputformat.split.minsize 不过需要重启下thrift server

    2020-03-20 09:24:17
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Hive Bucketing in Apache Spark 立即下载
spark替代HIVE实现ETL作业 立即下载
2019大数据技术公开课第五季—Hive迁移到MaxCompute最佳实践 立即下载