文档备案控制台

开发者社区大数据与机器学习大数据计算 MaxCompute 正文

Shuffle Service 的容错机制是什么？

已解决

Shuffle Service 的容错机制是什么？

展开

收起

游客lmkkns5ck6auu 2022-08-10 10:59:08 365 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

游客c3gxxcx6cqeyo

推荐回答

Shuffle service 的归集思想在公司内外都有不同的工作展现类似的思想，但都限于 “跑分”和小范围使用。因为这种模式对于各环节的错误天生处理困难。

以 shuffle agent 文件丢失/损坏是大数据作业的常见问题为例，传统的文件系统shuffle 可以直接定位到出错的数据文件来自哪个 mapper，只要重跑这个 mapper 即可恢复。但在前述 shuffle service 流程中，由于 shuffle agent 输出的 shuffle这个文件包含了来自所有 mapper 的 shuffle 数据，损坏文件的重新生成需要以重跑所有 mapper 为代价。如果这种机制应用于所有线上作业，显然是不可接受的。设计了数据双副本机制解决了这个问题，使得大多数通常情况下 reducer 可以读取到高效的 agent 生成的数据，而当少数 agent 数据丢失的情况，可以读取备份数据，备份数据的重新生成只依赖特定的上游 mapper。

具体来说，mapper 产生的每份 shuffle 数据除了发送给对于 shuffle agent 外，也会按照与传统文件系统 shuffle 数据类似的格式，在本地写一个备份。按前面所述，这份数据写的代价较小但读取的性能不佳，但由于仅在 shuffle agent 那个副本出错时才会读到备份数据，所以对作业整体性能影响很小，也不会引起集群级别的磁盘压力升高。

有效的容错机制使得 shuffle service 相对于文件系统 shuffle，在提供更好的作业性能的同时，因 shuffle 数据出错的 task 重试比例降低了一个数量级，给线上全面投入使用打好了稳定性基础。

以上内容摘自《“伏羲”神算》电子书，点击https://developer.aliyun.com/topic/download?id=873

2022-08-10 18:00:32

赞同展开评论

问答分类：

云原生大数据计算服务 MaxCompute

问答地址：

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 问答

相关问答

通过www和不带www的网址输入最终都指向www.我的域名.com，求指教

140296

45

0

空间如何支持这些函数

34352

22

0

购买阿里国外的云服务器是否可以访问谷歌？

85319

48

0

访问ECS服务器的网站提示“由于你访问的URL可能对网站造成安全威胁，您的访问被阻断”，这是什么原因？

129712

15

0

【阿里云运维部署工具AppDeploy详细教程】之4：应用部署

39843

6

0

阿里云服务器续费后一直处于启动中状态，服务器打不开了怎么解决？？？

36489

6

0

this xml file does not appear to have any style in

52859

10

0

域名在腾讯云备案成功，解析到阿里云服务器，提示仍需备案？

61621

32

0

如何加速中国访问美国云的服务器访问速度

32075

8

0

请问下我访问接口不通什么原因 Provisional headers are shown

4359

2

0

大数据与机器学习

大数据计算 MaxCompute

MaxCompute（原ODPS）是一项面向分析的大数据计算服务，它以Serverless架构提供快速、全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您经济并高效的分析处理海量数据。

我要提问

收录在圈子:

阿里巴巴大数据计算

347744

+ 订阅

MaxCompute 是面向分析的企业级 SaaS 模式云数据仓库，以 Serverless 架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您可以经济并高效的分析处理海量数据。数以万计的企业正基于 MaxCompute 进行数据计算与分析，将数据高效转换为业务洞察。

相关文章

【跨国数仓迁移最佳实践7】基于 MaxCompute 多租的大数据平台架构

【跨国数仓迁移最佳实践8】MaxCompute Streaming Insert：大数据数据流写业务迁移的实践与突破

网站代码网站源代码网页源代码网页代码网站

MaxCompute SQL AI 实操：业务员外呼备注有效性判断

寻找 AI 全能王——阿里云 Data+AI 工程师全球大奖赛正式开启

热门讨论

热门文章

请问下大数据计算MaxCompute dataworks是否有全局变量？

DataWorks 智能数据建模-业务痛点有哪些？

MaxCompute有没有参数突破呢？

请教个大数据计算MaxCompute问题，有什么方法可以解决这个问题呢?

Jdbc连接查询表时这个extended字段怎么添加的单纯使用show tables发送请求是

大数据计算MaxCompute的group by 时合并array , 用什么方法？

ODPS 的下一个15年，大数据将迎来春天还是寒冬？

请问MaxCompute和DataWorks有啥区别？

请教个大数据计算MaxCompute问题，报这个错误是啥情况？

服务端访问MaxCompute，不通吗？报什么错，我是服务端访问它，是不是给我个出口的IP就可以，我

展开全部

干货：解码OneData，阿里的数仓之路。

MaxCompute常见错误汇总（更新ing）

【逐云】阿里“水电煤”背后的人物故事

在PyODPS DataFrame自定义函数中使用pandas、scipy和scikit-learn

iphoneX都面世了，你的数据仓库还停留在诺基亚时代吗?

原来MaxCompute还能这么玩系列（1）—— 通过Apache Zeppelin 快速实现数据可视化

从单租户IaaS到多租户PaaS——金融级别大数据平台MaxCompute的多租户隔离实践

SLS：海量日志数据管理利器

阿里云数加产品家族图首次亮相

flume java介绍

展开全部

还有其他疑问?