备案控制台

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

列出了传统磁盘 shuffle 的主要问题是哪些？

已解决

列出了传统磁盘 shuffle 的主要问题是哪些？

展开

收起

游客lmkkns5ck6auu 2022-08-10 14:26:21 410 0

1 条回答

写回答

取消提交回答

游客c3gxxcx6cqeyo

推荐回答

·碎片读：一个典型的 2k*1k shuffle pipe 在上游每个 mapper 处理 256MB 数据时，一个 mapper 写给一个 reducer 的数据量平均为 256KB，而从 HDD 磁盘上一次读小于 256KB 这个级别的数据量是很不经济的，高 iops 低 throughput 严重影响作业性能；

·稳定性：由于 HDD 上严重的碎片读现象，造成 reduce input 阶段较高的出错比率，触发上游重跑生成shuffle数据更是让作业的执行时间成倍拉长。

以上内容摘自《“伏羲”神算》电子书，点击https://developer.aliyun.com/topic/download?id=873

2022-08-11 10:50:39

赞同展开评论打赏

问答分类：

云原生大数据计算服务 MaxCompute

问答地址：

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

最广泛使用的 shuffle 方式是什么？

325

1

0

在典型的常驻内存的实时/准实时计算中，通常使用shuffle的方式是什么？

282

1

0

Fuxi DAG对传统shuffle的改进之处是什么？

600

1

0

在Shuffle阶段中缓冲区的结果会发生什么呢？

248

1

0

传统的Shuffle有哪些问题？

391

1

0

Shuffle的过程是什么？

398

1

0

TairSQL内核技术的数据最终存储介质是什么？

489

1

0

为什么cassandra磁盘只有1.6t，数据量却有4-5t

4895

7

0

指定表和分区预见缓存中传统集群架构是怎么样的？

654

1

0

Hadoop中Combiner减少Reduce-Map网络传输的数据量有什么好处？

259

1

0

大数据与机器学习

大数据计算 MaxCompute

MaxCompute（原ODPS）是一项面向分析的大数据计算服务，它以Serverless架构提供快速、全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您经济并高效的分析处理海量数据。

我要提问

热门讨论

热门文章

大数据计算MaxCompute配置参数在开发环境进行调度，参数解析不出来，这是需要额外做什么配置吗？

MaxCompute中执行SQL报错ODPS-0130071

Maxcompute中如何处理ODPS-0130071:Semantic analysis exce

MaxCompute sql任务报错ODPS-0130161

我现在申请了试用大数据计算maxcomputer,然后想确定下，3个月内会不会扣钱？

数据采集中数据源共包含哪些？

大数据计算MaxCompute在某个工作空间下怎么查询所有的表名？

大数据计算MaxCompute ODPS-0010000:System internal这个怎么办？

DataWorks中DBeaver查询MaxCompute，默认是UTC时区，这个要怎么修改呢？

遇到Maxcompute中出现下面问题怎么办

展开全部

阿里云开源离线同步工具DataX3.0介绍

盘古：阿里云飞天分布式存储系统设计深度解析

美柚：最懂女性App背后的混合云架构与大数据服务

阿里云MaxCompute（大数据）公开数据集---带你玩转人工智能

空格App亿元A轮融资背后：云上多场景技术架构实践与经验

优酷背后的大数据秘密

【大数据干货】轻松处理每天2TB的日志数据，支撑运营团队进行大数据分析挖掘，随时洞察用户个性化需求。

干货：解码OneData，阿里的数仓之路。

阿里云MaxCompute 2019-5月刊

展开全部

相关电子书

更多

FLASH:大规模分布式图计算引擎及应用 立即下载

分布式海量二进制文件存储系统 立即下载

为流处理世界重新设计的存储 立即下载