开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

大数据计算MaxCompute一个几百万的表和一个几千的表,有什么方法优化吗?

大数据计算MaxCompute一个几百万的表和一个几千的表,做笛卡尔积(业务逻辑上需要) join 有什么方法优化吗?

展开
收起
夹心789 2024-05-19 18:13:14 57 0
1 条回答
写回答
取消 提交回答
  • 看下mapjoin:https://help.aliyun.com/zh/maxcompute/user-guide/mapjoin-hints?spm=a2c4g.11186623.0.i57#section-cmz-kbp-e9u
    lQLPKdCVBSn68SXNBAzNB4CwNPFwsysVsSQGMbRT5AOrAA_1920_1036.png
    你把online关了再重跑一下Fuxi Job的两种作业类型:Online Job(service mode)和Offline Job。对于Offline的作业而言,当每次提交作业时在Fuxi上都会有一个环境准备的时间,针对大数据量并且不需要返回查询结果的作业比较合适,而对小数据量并且实时作业要求比较高的作业是不合适的。所以Fuxi提供为什么ServiceMode这种准实时的作业形式,也是online,首先会有一个服务去预先申请计算一些资源并加载出来,比如会预先分配一 万个nstance,当有作业提交时会根据作业规模分配一些Instance进行执行,这样就省去环境准备的时间,所以就会比较快。online不等资源且不保证成功。如果service mode失败,比如instance个数超过1000,或者运行超过10分钟,就会退回以Offline模式重跑。可以set odps.service.mode=off;这样就直接跑完了,不会再跑online ,此回答整理自钉群“MaxCompute开发者社区2群”

    2024-05-20 09:32:54
    赞同 1 展开评论 打赏

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 相关电子书

    更多
    Data+AI时代大数据平台应该如何建设 立即下载
    大数据AI一体化的解读 立即下载
    极氪大数据 Serverless 应用实践 立即下载