昨天把大数据计算MaxCompute一个大SQL拆分成了几段去跑，最后插入到结果表的存储量缺变大了。

昨天把大数据计算MaxCompute一个大SQL拆分成了几段去跑，最后插入到结果表的存储量缺变大了。这是为什么啊？

展开

收起

真的很搞笑 2023-07-18 22:25:14 313 版权

3 条回答

写回答

取消提交回答

算精通

北京阿里云ACE会长

将一个大 SQL 拆分成多个小 SQL 来执行，在理论上不应该会导致结果表的存储量变大。然而，实际上可能存在以下情况导致结果表的存储量变大：

数据重复写入。如果多个小 SQL 的结果集存在重叠部分，可能会导致重复写入数据到结果表中，从而增加结果表的存储量。

中间表数据过多。如果拆分 SQL 后需要使用临时表或者中间表进行计算，且中间表数据量过大，可能会导致结果表的存储量变大。

数据类型转换问题。如果多个小 SQL 中涉及到数据类型转换操作，可能会导致结果表的存储量变大。例如，将字符串类型转换为数值类型时，可能会导致数据精度损失，从而导致结果表的存储量变大。

如果您发现结果表的存储量变大，可以先检查 SQL 语句是否存在数据重复写入的问题，尝试去除重叠部分。如果仍然存在存储量变大的问题，可以检查 SQL 语句中是否存在中间表数据过多或者数据类型转换问题，并进行相应的优化和调整。此外，还可以通过调整结果表的表结构和分区方式等方式，来减少结果表的存储量

2023-07-29 11:02:52

赞同展开评论
Star时光
当您将一个大SQL拆分成多个段来执行时，结果表的存储量可能会增加的原因可能有以下几个：
1. 数据冗余：如果在每个段中都生成了相同的结果数据，并将它们插入到结果表中，那么结果表中的数据会出现冗余。这会导致存储量的增加，因为相同的数据被重复存储。
2. 中间结果保存：在拆分的过程中，每个段可能会生成一些中间结果数据。如果这些中间结果数据也被写入到结果表中，那么结果表的存储量会增加，包括原始数据和中间结果数据。
3. 分区操作：如果您在拆分的过程中进行了分区操作，并根据不同的条件将数据插入到不同的分区中，那么结果表的存储量可能会增加。因为每个分区都需要单独存储数据。
4. 数据合并：在拆分结束后，如果您需要将拆分的结果进行合并或聚合，并将最终结果插入到结果表中，那么存储量可能会增加。因为最终结果可能比每个段的结果更大。
要解决这个问题，您可以考虑以下方法：
- 避免数据冗余：确保在拆分的过程中不会产生重复的数据，并仅将最终结果插入到结果表中。
- 最小化中间结果保存：优化拆分过程，尽量减少中间结果的生成和存储。
- 合理使用分区：如果使用了分区，请确保分区策略合理，并仅将必要的数据插入到结果表的相应分区。
- 聚合结果数据：在拆分结束后，可以尝试将拆分的结果进行合并或聚合，以减少最终结果的存储量。
此外，还建议根据具体情况进行优化和调整。考虑查询的复杂性、数据规模、分布和存储需求，以及MaxCompute的性能和资源限制等因素。

请注意，MaxCompute的具体配置和限制可能会根据服务提供商和服务层级而有所不同。建议查阅MaxCompute官方文档或与您的服务提供商进行进一步的沟通和咨询。

如果您需要更具体的帮助，请提供更多关于SQL和拆分过程的详细信息，我将能给出更准确的解答。
2023-07-28 21:09:26

赞同展开评论
芯在这
因为数据地图里有一些临时文件之类的，所以显示的存储量会比MaxCompute控制台稍微大一些；

存储使用量有这么几个地方可以看
1. MaxCompute控制台：控制台的项目列表里可以看到项目的已用存储；
2. 数据地图：数据地图里有project下的总量和单表存储之类的，因为数据地图里有一些临时文件之类的，所以显示的存储量会比MaxCompute控制台稍微大一些；
3. 用量明细：可以导出MaxCompute的用量明细，通过公式计算一下。详情参考：https://help.aliyun.com/document_detail/106521.html?spm=a2c4g.608123.0.i10#p-ozp-jnl-mqf
4. 如果需要单表存储量，以desc tablename;的结果为准，单位byte。如果需要核查MaxCompute的存储费用，以用量明细为准就行。，此回答整理自钉群“MaxCompute开发者社区2群”
2023-07-19 13:01:26

赞同展开评论

昨天把大数据计算MaxCompute一个大SQL拆分成了几段去跑，最后插入到结果表的存储量缺变大了。

大数据计算 MaxCompute

相关文章

相关解决方案

热门讨论

热门文章