请问大数据计算MaxCompute 有没有区别？

请问大数据计算MaxCompute odps.sql.mapper.split.size 和 odps.stage.mapper.split.size有没有区别？感觉是一样的啊，都是根据输入数据量所需存储动态分配mapper个数

展开

收起

真的很搞笑 2023-12-03 19:34:34 229 版权

3 条回答

写回答

取消提交回答

sunrr
odps.sql.mapper.split.size和odps.stage.mapper.split.size这两个参数在MaxCompute中确实都涉及到根据输入数据量来动态分配Mapper的个数，但是它们之间还是存在一定的区别。
1. odps.sql.mapper.split.size：这个参数是用于设置SQL任务中每个Mapper处理的数据量大小。它的单位是MB。当输入数据量大于这个值时，会生成多个Mapper来并行处理数据。
2. odps.stage.mapper.split.size：这个参数是用于设置整个Stage中每个Mapper处理的数据量大小。它的单位也是MB。与odps.sql.mapper.split.size相似，当输入数据量大于这个值时，会生成多个Mapper来并行处理数据。
2023-12-04 16:50:09

赞同展开评论
芯在这

stage.mapper.split.size 是设置每个map worker的输入数据量，框架会参考设置的Split Size值来划分Map，决定Map的个数。
sql.mapper.split.size是设定一个map的最大数据输入量，单位MB。最大值和直接固定一个值是不一样的。，此回答整理自钉群“MaxCompute开发者社区2群”

2023-12-04 08:06:22

赞同展开评论
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。

odps.sql.mapper.split.size和odps.stage.mapper.split.size在MaxCompute中都扮演着重要的角色，尽管它们之间确实存在一定的相似性。这两个参数都是用于控制并发度的，即根据输入数据量动态分配mapper的个数。

具体来说，odps.sql.mapper.split.size主要用于调整单个SQL任务的并发度。当一个map instance处理的数据行数过多时，可以通过调整这个设置来改善任务性能。例如，可以设定一个map的最大数据输入量（默认是256MB），以此来确定需要启动的mapper的数量。

另一方面，odps.stage.mapper.split.size则是用于调整整个作业的并发度。它决定了每个stage应该有多少个mapper。例如，如果作业中的某个stage处理的数据量过大，可以通过增加odps.stage.mapper.split.size的值来分配更多的mapper，从而提高该stage的执行效率。

2023-12-03 21:27:13

赞同展开评论

请问大数据计算MaxCompute 有没有区别？

大数据计算 MaxCompute

相关文章

热门讨论

热门文章