开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 正文

Spark on Kubernetes存在哪些问题?

Spark on Kubernetes存在哪些问题?

展开
收起
Lee_tianbai 2021-01-07 16:32:36 1115 0
1 条回答
写回答
取消 提交回答
  •  最重要的,就是 Shuffle 的流程,按照目前的 Shuffle 方式,我们是没办法 打开动态资源特性的。而且还需要挂载云盘,云盘面临着 Shuffle 数据量的问题,挂的 比较大会很浪费,挂的比较小又支持不了 Shuffle Heavy 的任务。

     调度和队列管理问题,调度性能的衡量指标是,要确保当大量作业同时启动时,不应该 有性能瓶颈。作业队列这一概念对于大数据领域的同学应该非常熟悉,他提供了一种管 理资源的视图,有助于我们在队列之间控制资源和共享资源。

     读写数据湖相比较 HDFS,在大量的 Rename,List 等场景下性能会有所下降,同时 OSS 带宽也是一个不可避免的问题。

    2021-01-08 15:46:59
    赞同 展开评论 打赏

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载

相关镜像