开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

请问下为什么我在dataworks中现在跑数这么慢呢?

请问下为什么我在dataworks中现在跑数这么慢呢?

展开
收起
滴滴滴~ 2023-03-29 15:41:27 238 0
2 条回答
写回答
取消 提交回答
  • DataWorks 跑数慢的原因及解决建议:

    1. 数据量过大

    • 解决建议:对数据进行分区或分桶,缩小单次处理的数据量。

    2. 计算资源不足

    • 解决建议:升级计算资源规格,增加 CPU 和内存。

    3. 代码优化不当

    • 解决建议:优化代码逻辑,避免不必要的循环和嵌套。使用高效的数据结构和算法。

    4. 数据倾斜

    • 解决建议:使用随机函数或哈希函数对数据进行打散,避免数据集中在某几个分区或桶中。

    5. 网络延迟

    • 解决建议:检查网络连接是否稳定,优化网络配置。

    6. 数据源访问慢

    • 解决建议:优化数据源连接,使用连接池或缓存机制。

    7. 作业并发度过高

    • 解决建议:适当降低作业并发度,避免系统资源竞争。

    8. 资源争抢

    • 解决建议:合理分配资源,避免不同作业或租户之间争抢资源。

    9. 系统负载过高

    • 解决建议:错峰运行作业,或联系客服扩容系统资源。

    10. 其他原因

    • 慢查询:检查作业中是否有慢查询,并进行优化。
    • 数据倾斜:检查作业中是否有数据倾斜,并进行优化。
    • 存储瓶颈:检查作业使用的存储是否出现瓶颈,并进行优化。

    建议的排查步骤:

    1. 检查作业日志,查看是否有报错或性能瓶颈提示。
    2. 使用 DataWorks Profiler 分析作业性能,找出慢速环节。
    3. 逐一排查上述可能原因,并进行相应的优化。
    4. 如果无法自行解决,可以联系 DataWorks 客服寻求帮助。
    2024-02-28 17:54:22
    赞同 展开评论 打赏
  • 天下风云出我辈,一入江湖岁月催,皇图霸业谈笑中,不胜人生一场醉。

    通常是由于拉取的SQL执行比较慢(源数据库CPU负载高或网络流量占用高),或在拉取SQL前进行truncate等操作,导致处理时间较长。

    2023-03-29 15:42:48
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 热门讨论

    热门文章

    相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季 立即下载
    基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载

    相关实验场景

    更多