开发者社区> 问答> 正文

通过spark-thriftserver读取hive表执行sql时,tasks 数量怎么设置

我在使用spark-thriftserver的方式,通过beeline执行sql的时候,thriftserver会扫描所查询hive表的所有分区(hdfs上面的路径)然后有多少个路径,就会自动生成多少个task,这个task的数量可以调整吗?或者这个流程怎么优化?

展开
收起
游客iwhrjhvjoyqts 2019-07-05 15:30:22 116848 0
1 条回答
写回答
取消 提交回答
  • 长期从事大数据系统与产品研发。

    可以添加inputformat相关的配置,比如spark.hadoop.mapreduce.input.fileinputformat.split.minsize 不过需要重启下thrift server

    2020-03-20 09:24:17
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
SQL Server在电子商务中的应用与实践 立即下载
GeoMesa on Spark SQL 立即下载
原生SQL on Hadoop引擎- Apache HAWQ 2.x最新技术解密malili 立即下载