10年老兵带你看尽MaxCompute大数据运算挑战与实践

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 在大流量高并发互联网应用实践在线峰会上,阿里云大数据计算平台资深架构师林伟带来了题为《MaxCompute大数据运算挑战与实践》的分享。分享中,他主要介绍了在大数据、大流量、高并发情况下MaxCompute所面临的挑战,以及应对这些挑战的实践经验。

本文根据阿里云大数据计算平台资深架构师林伟在大流量高并发互联网应用实践在线峰会上题为《MaxCompute大数据运算挑战与实践》的分享整理而成。分享中,他主要介绍了在大数据、大流量、高并发情况下MaxCompute所面临的挑战,以及应对这些挑战的实践经验。

直播视频点击此处观看

幻灯片地址点击此处下载

以下为在线分享观点整理。


什么是MaxCompute?

大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的PB/EB级数据仓库解决方案,具备万台服务器扩展能力和跨地域容灾能力,是阿里巴巴内部核心大数据平台,支撑每日百万级作业规模。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。

f112e2b635d83f51604fae3de9f7a304949710da

上图是MaxCompute的架构图,该架构中包含多个万台级别的集群,以满足运算的需求;在集群上面部署了盘古分布式存储系统,用于存储海量数据,达到PE级别以上;在分布式存储系统之上又搭建了伏羲分布式调度系统,用于管理硬件资源和存储资源,为上层的运算平台提供共享的资源管理系统;为了充分发挥该架构的计算和存储资源,在分布式调度系统上搭建了MaxCompute统一计算引擎,同时为开发者提供统一的开发框架;在运算引擎上搭建了SQL、MR、迭代计算、图计算、流计算。

MaxCompute面临的挑战

3b43e18eb49a5049e53f0f240159975681759cff

阿里巴巴对MaxCompute的挑战有以下几点:

  • 大规模,首先单个集群规模要大,达到万台级别;其次多集群共同运行。
  • 兼容Hive,拥抱生态,利用和回馈社区,拥抱开源。
  • 高性能,低成本。
  • 多租户,需要满足用户不同规模、性能、延时、运算形式上要求。
  • 易用性,扩展性,目标是降低开发门槛,开发人员无需过多理解平台即可写出高效的算法。
  • 稳定和隔离,确保数据安全。
  • 持续可发展性,平台需要根据硬件和业务的变化持续不断地发展。

MaxCompute应对挑战的具体实践

309503dcf7f98da684f81285c05961b83c61f956

首先来看一个SQL运行实例,从上图左侧可以看到该SQL有着复杂的运行逻辑,该任务经过优化器和编译器后编译成可执行的plan,如上图中间的戴尔图所示,包含上万个WorkTask;图中最右侧显示了Stage中每个WorkTask运行状况。

07b23e468f35f346623fc58e3b22b09746c2dae9

MaxCompute的语言特点包括下面几点:

  • 兼容Hive
  • 扩展Hive
    •  更为丰富的UDF支持,全面深入和优化器交互,使得用户仅仅需要考虑业务逻辑,而把分布式执行优化交给系统。
    •  除了仅支持subquery外,充分支持存储过程,使得用户能够更加容易实现复杂任务,并且给优化器和执行器更多空间去优化,从而提高性能,降低成本
    •  更多丰富数据接口:结构,非结构,多维度数据安全控制
    •  更为复杂的编程表达:LOOP/IF
    •  迭代,支持内存计算

MaxCompute查询优化器

c8fc01a9868af6f4a7c485073440b0589da0e54c

下面来看一下MaxCompute查询优化器,主要包括两种类型:RBO和CBO。

RBO是基于规则的优化器,在早期的MaxCompute中使用,是一种过时的优化器框架,它只认规则,对数据不敏感。优化是局部贪婪,容易陷入局部优化但全局差的场景,容易受应用规则的顺序而生产迥异的执行计划,往往结果不是最优的。

CBO是基于代价的优化器,它实际上是Volcano模型,可以展开各种可能等价的执行计划,然后依赖数据的统计信息,计算这些等价执行计划的代价,最后从中选用Cost最低的执行计划。

44c3358888e69468369565604ef71c6b06ce5158

MaxCompute最新优化器是CBO优化器,上图是CBO优化器工作的过程。在优化过程中,CBO优化器会展开多个等价树,所有的等价树都是可执行计划;之后通过Cost Model来选择最优的执行计划。

a6c3db4827b9463b4281d3735bc87028f832ec81

分布式场景的优化有别于单机优化。上图是在两张表上进行Join操作的简单案例,假设表T1已经按照a,b进行了分区;表T2按照a进行了分区。如果在单机系统中,分区问题不会出现;在分布式系统中,因为分区的出现可能会产生两个不同的执行计划:第一个执行计划是将T1按照a进行重新分区,之后再和T2进行Join;另一种执行计划是假设T1很大,而T2相对没那么大,此时不对T1重新进行分区,而是将T2数据广播给T1的每个分区。两种执行计划在不同的环境各具优势。

139b93f69eeabb918bc9c9049c55a05045887394

在大流量、高并发场景中,每天都需要处理大量相似的查询,这就给优化器带来了巨大机会。HBO优化器是基于历史优化的优化器,对每天提交的查询进行聚类,把以前运行数据作为Hint来帮助未来的相似的查询上。

全局调度

c3071dcb4ecb93dd165de3dcafcde47665d71fb0

MaxCompute在多集群上进行了全局调度的优化。当两个数据中心的集群内都存有用户所需要操作的表,并且版本一致时:当用户1的更新请求提交到离其最近的数据中心A时,数据中心A集群的表版本会升级,进而导致两个集群的版本不一致;当用户2需要读取该表时,由于位置距离另一个数据中心B较近,请求会提交到数据中心B,但数据中心B集群内表版本已过期。此时,系统会被触发,发现两者的不同,进而将表数据从数据中心A调度到数据中心B内。

在大数据操作上有很多其他操作方式,如远程读、Replicate等模式,但这些方式需要充分考虑带宽、任务完成时效需求等。

1d789450a524198dd6b637a61625c698bcc6ad8d

执行计划最后变成一个DAG,上图示例中DAG与MapReduce的区别在于:DAG少了一次多余的读写操作。

资源调度的挑战

5bfc3addccf7fc57c659832360ae05663dc1bbb1

下面来看看分布式调度的资源调度挑战。每天需要调度的实例非常多,达到百亿级别,同时又有多达万台单集群的资源容器,如何快速有效地将实例调度到容器中是我们亟需解决的一个问题。因为,这其中调度决策频率是非常高的,达到2000+/秒,并且还需要考虑调度的机器是否最适合目标实例。

调度器一般采用增量式调度,当调度实例不是最优时,需要考虑Latency和Throughput的平衡;还需要考虑负载均衡,热点规避;同时还需要注意任务优先级的实时性和公平性。

839a3ecc768694f6e7aee9fe8de67707c66a5124

调度是一个非常难的问题,在分布式计算平台上调度的目标分为多个维度:第一个维度是高使用效率;第二个维度是多租户公平性;第三个维度是实时性。各维度要求之前有时是相互矛盾的,例如提升使用效率时会牺牲公平性和实时性。为了达到最好的调度效果,需要对多维度的资源和各异需求CPU、Disk、Memory进行分析;并对各调度对象统计信息,各机器资源实时统计信息。

07a1e641d19fe99d8e051cc8081920ad9e4987b9

大规模下任务调度也面临着很多挑战,第一点数据交换,当上万个Partitioner和上万个aggregator,但连接边就可能达到百万级别;第二点是长尾的检测以及Duplicate Execution触发;第三点是调度,数万台机器以及每天数百万级别的Job,数百亿级别的Task,高效调度也是一个难题。

运行时优化

3d27b7f6ec7d655a240b7cc254a0203547be2ec2

除了调度优化之外,很多情况下需要动态DAG(运行时优化):

  • 考虑运行时候数据大小进行并行粒度的选择;
  • 考虑到运行节点在集群中的拓扑结构来进行有效数据传递提高网络性能和容错处理;
  • 通过运行数据分布决定Range Partition的边界选取,避免data-skew。

c503879bb9d6b84a6a8df8414d30f01df1b5cabe

除了单个Job调度上的优化,同时还有MaxCompute运行时的优化,通常利用LVM技术,在运行时根据SQL Query特点生成较优的机器码;采用列式执行框架,提高CPU流水线的执行效率,并提高缓存命中率;充分利用CPU特性(SIMD),实现指令级别的向量执行。充分利用硬件的计算能力,提高单点的运算效率。

持续改进和发布中的挑战

05fdf07615f0bdb7b846eccffba4b1b4895f5f00

MaxCompute每天都有百万级别的作业,在新的功能不会造成线上故障前提下,持续不断地改进和发布系统是一个很高要求的挑战。同时,由于计算集群十分庞大,重新搭建一个规模相当的测试集群是不可取的方式。

安全性方面,MaxCompute从第一天就强调安全性,在测试模拟用户的场景时需要将用户的数据迁移到测试环境中,这其中就涉及到数据脱敏的过程,进而引发一系列的问题。因此,处理可测性和安全性之间的矛盾也是一个难点。

5650d9e18a8948c59c8c90759b1e4470e130d71d

目前的解决方案有两种:第一种是通过Playback编译器,利用大规模运算平台的并行运算能力来验证兼容性测试,具体做法是将编译查询作为一个ODPS的UDF,然后执行一个并行DAG来执行上百万查询的编译优化,然后在智能分析结果得到新功能的潜在风险。

如上流程图所示,一个新的查询发送至查询数据库中;当有新版本发布时,执行ODPS的Playback Query,然后执行之前所有任务的查询,并查看查询计划是否符合预期。

01d49cb08149e2424960d0a9129430371fe0102b

第二种是MaxCompute Flighting工具,用于保证MaxCompute优化器和运行器正确执行,避免快速迭代中的正确性问题,从而避免重大的事故,同时还能保证数据安全性。由于企业不可能构建一个离线的规模相当的测试集群,并且利用测试集群进行相应的测试会导致资源的大量浪费,在数据安全的上,需要脱敏来拖数据、改变查询行为、触及用户数据,并且不能做对等测试,过程复杂冗长,不能达到测试目的。

因此我们给出的方法是线上测试,通过伏羲的资源控制和好的隔离、优先级管理,在线上利用1%的资源分配给测试用户组,对用户而言是非常透明的,并且不需要脱敏数据来进行测试数据的准备,安全性也随之提升。此外,由于动态调度,当无需测试时,1%的资源可以被分配真正的生产用户加以利用,充分发挥系统的资源利用率。


关于分享嘉宾:

林伟:阿里云大数据计算平台资深架构师,阿里云大数据计算平台MaxCompute首席架构师。具有大规模并发系统有10年以上的系统架构设计及研发经验,并在国际一流ODSI、NSDI、SIGMOD会议上多次发表论文。


欢迎加入“数加·MaxCompute购买咨询”钉钉群(群号: 11782920)进行咨询,群二维码如下:

IMG_3471


 6c4b69af9fd1b465628b63fcee73224de0b62357

阿里巴巴大数据-玩家社区 https://yq.aliyun.com/teams/6/

---阿里大数据博文,问答,社群,实践,有朋自远方来,不亦说乎……

bba01b493e1c5d904e882b1c380673c6ebe49a98

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
SQL 分布式计算 运维
如何对付一个耗时6h+的ODPS任务:慢节点优化实践
本文描述了大数据处理任务(特别是涉及大量JOIN操作的任务)中遇到的性能瓶颈问题及其优化过程。
|
1月前
|
机器学习/深度学习 算法 搜索推荐
从理论到实践,Python算法复杂度分析一站式教程,助你轻松驾驭大数据挑战!
【10月更文挑战第4天】在大数据时代,算法效率至关重要。本文从理论入手,介绍时间复杂度和空间复杂度两个核心概念,并通过冒泡排序和快速排序的Python实现详细分析其复杂度。冒泡排序的时间复杂度为O(n^2),空间复杂度为O(1);快速排序平均时间复杂度为O(n log n),空间复杂度为O(log n)。文章还介绍了算法选择、分而治之及空间换时间等优化策略,帮助你在大数据挑战中游刃有余。
61 4
|
1月前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
98 1
|
24天前
|
边缘计算 人工智能 搜索推荐
大数据与零售业:精准营销的实践
【10月更文挑战第31天】在信息化社会,大数据技术正成为推动零售业革新的重要驱动力。本文探讨了大数据在零售业中的应用,包括客户细分、个性化推荐、动态定价、营销自动化、预测性分析、忠诚度管理和社交网络洞察等方面,通过实际案例展示了大数据如何帮助商家洞悉消费者行为,优化决策,实现精准营销。同时,文章也讨论了大数据面临的挑战和未来展望。
|
1月前
|
SQL 消息中间件 分布式计算
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(一)
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(一)
80 0
|
1月前
|
SQL 大数据
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(二)
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(二)
59 0
|
1月前
|
SQL 消息中间件 分布式计算
大数据-130 - Flink CEP 详解 - CEP开发流程 与 案例实践:恶意登录检测实现
大数据-130 - Flink CEP 详解 - CEP开发流程 与 案例实践:恶意登录检测实现
47 0
|
3月前
|
人工智能 分布式计算 架构师
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
|
3月前
|
SQL 存储 分布式计算
MaxCompute 入门:大数据处理的第一步
【8月更文第31天】在当今数字化转型的时代,企业和组织每天都在产生大量的数据。有效地管理和分析这些数据变得至关重要。阿里云的 MaxCompute(原名 ODPS)是一个用于处理海量数据的大规模分布式计算服务。它提供了强大的存储能力以及丰富的数据处理功能,让开发者能够快速构建数据仓库、实时报表系统、数据挖掘等应用。本文将介绍 MaxCompute 的基本概念、架构,并演示如何开始使用这一大数据处理平台。
581 0
|
SQL 人工智能 分布式计算
MaxCompute平台非标准日期和气象数据处理方法--以电力AI赛为例
MaxCompute平台支持的日期格式通常是对齐的日期格式诸如20170725或2017/07/25这种,而本次电力AI赛提供的日期格式却是未对齐的非标准的日期格式2016/1/1这种,使得无法直接使用ODPS SQL中的日期函数来进行处理。
5331 0

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 下一篇
    无影云桌面