Spark Shuffle Service 问题 有哪些? 求大佬解答
首先是Shuffle可靠性问题,在生成集群当中,在集群高峰时段ReducerTasks经常无法与Shuffle进行连接,连接失败将导致ShuffleBlock的获取失败。这种问题导致工作流中的SLA无法满足,甚至运行失败。在此之外,还遇到了Shuffle效率问题,在集群当中,Shuffle文件存储在硬盘之上,由于ReducerTasks请求陆续发出,ShuffleService也将访问数据,如果ShuffleBlock大小很小,那么ShuffleService生成的少数据随机获取操作将严重硬盘的数据吞吐量,从而延长Shuffle等待时间。第三个问题是Shuffle规模扩展性问题,由于ShuffleService的共享属性,一个需要Shuffle很多小Blocks的应用,在获取ShuffleBlock时很容易对ShuffleService造成过大压力,导致性能的下降。这不仅影响对Shuffle不友好的应用,还会影响共享同一个ShuffleService的相邻应用。对于这些应用而言,调整ShuffleBlock并不容易,这种现象发生时也会导致其它正常应用运行时间的延长。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。