问题一:阿里云RSS与开源系统X在TPCDS-3T性能测试中的表现差异是什么?
阿里云RSS与开源系统X在TPCDS-3T性能测试中的表现差异是什么?
参考回答:
在TPCDS-3T性能测试中,阿里云RSS的总时间比开源系统X快了20%。
关于本问题的更多问答可点击原文查看:
https://developer.aliyun.com/ask/670789
问题二:在Reducer大规模并发的稳定性测试中,阿里云RSS、Magent和开源系统X的表现如何?
在Reducer大规模并发的稳定性测试中,阿里云RSS、Magent和开源系统X的表现如何?
参考回答:
在Reducer大规模并发的稳定性测试中,阿里云RSS表现最佳,Magnet虽然可以跑通但时间比RSS慢了数倍,而开源系统X在Shuffle Write阶段出现了报错。
关于本问题的更多问答可点击原文查看:
https://developer.aliyun.com/ask/670792
问题三:小米离线集群在使用Spark时面临的主要痛点是什么?
小米离线集群在使用Spark时面临的主要痛点是什么?
参考回答:
小米离线集群使用Spark时,主要痛点集中在Shuffle导致的稳定性差、性能差以及对存算分离架构的限制。作业失败原因主要归结为Fetch Failure,且由于大部分集群使用的是HDD,传统Shuffle的高随机读和高网络连接进一步加剧了这些问题。
关于本问题的更多问答可点击原文查看:
https://developer.aliyun.com/ask/670796
问题四:小米是如何在集群中落地阿里云RSS的,并解决了哪些关键问题?
小米是如何在集群中落地阿里云RSS的,并解决了哪些关键问题?
参考回答:
小米与阿里云EMR团队建立了共创关系,逐步在生产集群中上线RSS。小米主导了磁盘容错的开发,并在多个环节对RSS作业进行了容错处理,如调度端的重试回退到ESS机制,以及ShuffleWriter初始化阶段的自适应Fallback机制。
关于本问题的更多问答可点击原文查看:
https://developer.aliyun.com/ask/670799
问题五:接入阿里云RSS后,小米Spark作业的稳定性和性能有哪些显著提升?
接入阿里云RSS后,小米Spark作业的稳定性和性能有哪些显著提升?
参考回答:
接入阿里云RSS后,小米Spark作业的稳定性显著提升,之前因Fetch Failure失败的作业几乎不再失败。同时,作业性能平均提升了20%。在存算分离方面,小米海外某集群接入RSS后,成功上线了1600+ Core的弹性集群,且作业运行稳定。
ESS:
RSS:
下图展示了接入RSS前后作业运行时间的对比。
ESS:
RSS:
关于本问题的更多问答可点击原文查看:
https://developer.aliyun.com/ask/670802