EMR Remote Shuffle Service实践问题之集群中落地阿里云RSS如何解决-阿里云开发者社区

EMR Remote Shuffle Service实践问题之集群中落地阿里云RSS如何解决

2024-08-23 278

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： EMR Remote Shuffle Service实践问题之集群中落地阿里云RSS如何解决

问题一：阿里云RSS与开源系统X在TPCDS-3T性能测试中的表现差异是什么？

阿里云RSS与开源系统X在TPCDS-3T性能测试中的表现差异是什么？

参考回答：

在TPCDS-3T性能测试中，阿里云RSS的总时间比开源系统X快了20%。

关于本问题的更多问答可点击原文查看：

https://developer.aliyun.com/ask/670789

问题二：在Reducer大规模并发的稳定性测试中，阿里云RSS、Magent和开源系统X的表现如何？

在Reducer大规模并发的稳定性测试中，阿里云RSS、Magent和开源系统X的表现如何？

参考回答：

在Reducer大规模并发的稳定性测试中，阿里云RSS表现最佳，Magnet虽然可以跑通但时间比RSS慢了数倍，而开源系统X在Shuffle Write阶段出现了报错。

关于本问题的更多问答可点击原文查看：

https://developer.aliyun.com/ask/670792

问题三：小米离线集群在使用Spark时面临的主要痛点是什么？

小米离线集群在使用Spark时面临的主要痛点是什么？

参考回答：

小米离线集群使用Spark时，主要痛点集中在Shuffle导致的稳定性差、性能差以及对存算分离架构的限制。作业失败原因主要归结为Fetch Failure，且由于大部分集群使用的是HDD，传统Shuffle的高随机读和高网络连接进一步加剧了这些问题。

关于本问题的更多问答可点击原文查看：

https://developer.aliyun.com/ask/670796

问题四：小米是如何在集群中落地阿里云RSS的，并解决了哪些关键问题？

小米是如何在集群中落地阿里云RSS的，并解决了哪些关键问题？

参考回答：

小米与阿里云EMR团队建立了共创关系，逐步在生产集群中上线RSS。小米主导了磁盘容错的开发，并在多个环节对RSS作业进行了容错处理，如调度端的重试回退到ESS机制，以及ShuffleWriter初始化阶段的自适应Fallback机制。

关于本问题的更多问答可点击原文查看：

https://developer.aliyun.com/ask/670799

问题五：接入阿里云RSS后，小米Spark作业的稳定性和性能有哪些显著提升？

接入阿里云RSS后，小米Spark作业的稳定性和性能有哪些显著提升？

参考回答：

接入阿里云RSS后，小米Spark作业的稳定性显著提升，之前因Fetch Failure失败的作业几乎不再失败。同时，作业性能平均提升了20%。在存算分离方面，小米海外某集群接入RSS后，成功上线了1600+ Core的弹性集群，且作业运行稳定。

ESS：

RSS:

下图展示了接入RSS前后作业运行时间的对比。

ESS:

RSS:

关于本问题的更多问答可点击原文查看：

https://developer.aliyun.com/ask/670802

EMR Remote Shuffle Service实践问题之集群中落地阿里云RSS如何解决

问题一：阿里云RSS与开源系统X在TPCDS-3T性能测试中的表现差异是什么？

问题二：在Reducer大规模并发的稳定性测试中，阿里云RSS、Magent和开源系统X的表现如何？

问题三：小米离线集群在使用Spark时面临的主要痛点是什么？

问题四：小米是如何在集群中落地阿里云RSS的，并解决了哪些关键问题？

问题五：接入阿里云RSS后，小米Spark作业的稳定性和性能有哪些显著提升？

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

EMR Remote Shuffle Service实践问题之集群中落地阿里云RSS如何解决

问题一：阿里云RSS与开源系统X在TPCDS-3T性能测试中的表现差异是什么？

问题二：在Reducer大规模并发的稳定性测试中，阿里云RSS、Magent和开源系统X的表现如何？

问题三：小米离线集群在使用Spark时面临的主要痛点是什么？

问题四：小米是如何在集群中落地阿里云RSS的，并解决了哪些关键问题？

问题五：接入阿里云RSS后，小米Spark作业的稳定性和性能有哪些显著提升？

热门文章

最新文章

相关课程

相关电子书

相关实验场景