Spark on Kubernetes存在哪些问题?

Spark on Kubernetes存在哪些问题?

展开
收起
Lee_tianbai 2021-01-07 16:32:36 1126 分享
分享
版权
举报
1 条回答
写回答
取消 提交回答
  •  最重要的,就是 Shuffle 的流程,按照目前的 Shuffle 方式,我们是没办法 打开动态资源特性的。而且还需要挂载云盘,云盘面临着 Shuffle 数据量的问题,挂的 比较大会很浪费,挂的比较小又支持不了 Shuffle Heavy 的任务。

     调度和队列管理问题,调度性能的衡量指标是,要确保当大量作业同时启动时,不应该 有性能瓶颈。作业队列这一概念对于大数据领域的同学应该非常熟悉,他提供了一种管 理资源的视图,有助于我们在队列之间控制资源和共享资源。

     读写数据湖相比较 HDFS,在大量的 Rename,List 等场景下性能会有所下降,同时 OSS 带宽也是一个不可避免的问题。

    2021-01-08 15:46:59 举报
    赞同 评论

    评论

    全部评论 (0)

    登录后可评论

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

收录在圈子:
+ 订阅
还有其他疑问?
咨询AI助理
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等