问题一:数据倾斜的主要原因是什么?
数据倾斜的主要原因是什么?
参考回答:
数据倾斜的主要原因是key值分布不均,这导致了Reduce处理数据的不均匀。
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/615682
问题二:当业务SQL运行时间过长或失败时,首先应该检查什么?
当业务SQL运行时间过长或失败时,首先应该检查什么?
参考回答:
当业务SQL运行时间过长或失败时,首先应该检查输入数据量级,看与其他天相比有无明显量级变化,是否因为数据量级的问题天然引起任务运行时间过长。
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/615683
问题三:如何观察SQL最耗时阶段的Task运行情况?
如何观察SQL最耗时阶段的Task运行情况?
参考回答:
在最耗时阶段中,需要观察各个Task的运行情况。具体要查看Task列表中是否存在某几个Task实例耗时明显比平均耗时更长,以及是否存在某几个Task实例处理输入/输出数据量级比平均数据量级消费产出更多。
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/615684
问题四:如何定位SQL问题业务处理逻辑?
如何定位SQL问题业务处理逻辑?
参考回答:
根据对Task运行情况的观察,特别是那些耗时明显偏长或数据处理量级异常的Task,可以定位到具体的代码行数,从而找出问题的业务处理逻辑。
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/615685
问题五:在SQL执行任务拆分后,对各阶段的运行时间进行分析的目的是什么?
在SQL执行任务拆分后,对各阶段的运行时间进行分析的目的是什么?
参考回答:
分析执行任务拆分后各阶段的运行时间,目的是找出是否存在某个阶段耗时过长,从而确定性能瓶颈,以便优化。
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/615686