我在使用spark-thriftserver的方式,通过beeline执行sql的时候,thriftserver会扫描所查询hive表的所有分区(hdfs上面的路径)然后有多少个路径,就会自动生成多少个task,这个task的数量可以调整吗?或者这个流程怎么优化?
可以添加inputformat相关的配置,比如spark.hadoop.mapreduce.input.fileinputformat.split.minsize 不过需要重启下thrift server
分享数据库前沿,解构实战干货,推动数据库技术变革