开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

flink批模式查一张几千万的hive到另一个hive表,一下子起了1000的并行度,怎么降下来?

flink批模式查一张几千万的hive到另一个hive表,一下子起了1000的并行度,怎么降下来?

展开
收起
圆葱猪肉包 2023-04-19 16:29:20 264 0
2 条回答
写回答
取消 提交回答
  • 公众号:网络技术联盟站,InfoQ签约作者,阿里云社区签约作者,华为云 云享专家,BOSS直聘 创作王者,腾讯课堂创作领航员,博客+论坛:https://www.wljslmz.cn,工程师导航:https://www.wljslmz.com

    如果任务的并行度过高,可以考虑通过以下几个方向来调整并行度:

    1. 调整输入数据源的并行度:如果输入数据源并行度过高,可以根据数据量、查询复杂度等因素适当调整数据源的并行度。

    2. 调整算子(operator)的并行度:可以根据任务的数据量、计算复杂度、硬件配置等因素,适当调整每个算子的并行度。通常来说,并行度设置在100左右是一个比较合适的范围。

    3. 避免数据倾斜:如果任务的并行度集中在少数几个算子上,可能会导致数据倾斜问题,可以通过keyBy()和rebalance()等操作来平衡算子间的负载,避免数据倾斜。

    你可以通过flink的Web UI来查看任务的运行情况,包括每个算子的并行度、任务的运行状态、数据倾斜等情况,进而根据实际情况来进行调整并行度。另外,如果任务的并行度过高对应用的性能无任何帮助,也会增加集群的压力,因此还需要根据数据量、硬件配置等因素来实际判断并行度的合适范围。

    2023-04-30 23:07:18
    赞同 展开评论 打赏
  • 可以设置下参数,类似这样 SET table.exec.hive.infer-source-parallelism.max=20;,此回答整理自钉群“【③群】Apache Flink China社区”

    2023-04-19 22:30:20
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    Flink CDC Meetup PPT - 龚中强 立即下载
    Flink CDC Meetup PPT - 王赫 立即下载
    Flink CDC Meetup PPT - 覃立辉 立即下载