开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

双十一大促场景下,除了数据洪峰和超过日常作业的规模,数据的分布与特点也与平常大不相同,这种特殊的场景

已解决

双十一大促场景下,除了数据洪峰和超过日常作业的规模,数据的分布与特点也与平常大不相同,这种特殊的场景对分布式作业的调度执行框架提出了哪些挑战?

展开
收起
游客lmkkns5ck6auu 2022-08-10 14:28:12 477 0
1 条回答
写回答
取消 提交回答
  • 推荐回答

    ·处理双十一规模的数据,单个作业规模超过数十万计算节点,并有超过百亿的物理边连接。在这种规模的作业上要保证调度的敏捷性,需要实现全调度链路 overhead 的降低以及无阻塞的调度;

    ·在基线时段集群异常繁忙,各个机器的网络/磁盘/CPU/内存等等各个方面均会收到比往常更大的压力,从而造成大量的计算节点异常。而分布式调度计算框架在这个时候,不仅需要能够及时监测到逻辑计算节点的异常进行最有效的重试,还需要能够智能化的及时判断/隔离/预测可能出现问题的物理机器,确保作业在大的集群压力下依然能够正确完成;

    ·面对与平常特点不同的数据,许多平时的执行计划在双十一场景上可能都不再适用。这个时候调度执行框架需要有足够的智能性,来选择合理的物理执行计划;以及足够的动态性,来根据实时数据特点对作业的方方面面做出及时的必要调整。这样才能避免大量的人工干预和临时人肉运维。

    2019 年双十一,适逢计算平台的核心调度执行框架全新架构升级- DAG 2.0 正在全面推进上线,DAG 2.0 很好的解决了上述几个挑战。

    以上内容摘自《“伏羲”神算》电子书,点击https://developer.aliyun.com/topic/download?id=873

    2022-08-11 10:51:54
    赞同 展开评论 打赏

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

相关电子书

更多
《备战双 11!蚂蚁金服万级规模 K8s 集群管理系统如何设计?》 立即下载
运维如何应对十倍、百倍的业务增长? 立即下载
亿级 PV网站架构实战之性能压榨 立即下载