MaxCompute 公共云多租户设计的技术要点详解及产品实现特色

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 公共云大数据平台在多租户的设计和实现方式上有所差异。本文主要介绍在公共云大数据平台的多租实现方案中需要考虑的问题和挑战,重点介绍了MaxCompute在计算和存储多租实现上的特点。期望通过这些介绍来让大家了解大数据云平台多租方案需要关注的技术点和MaxCompute在多租实现上的产品特色。

本文作者:董国平 阿里云智能高级技术专家


公共云大数据平台在多租户的设计和实现方式上有所差异。本文主要介绍在公共云大数据平台的多租实现方案中需要考虑的问题和挑战,重点介绍了MaxCompute在计算和存储多租实现上的特点。期望通过这些介绍来让大家了解大数据云平台多租方案需要关注的技术点和MaxCompute在多租实现上的产品特色。


大数据平台多租户的常见形态


多租的概念大家可能有不同的理解,这里做个简单的分类,方便沟通。



第一种是租户独享一个数据库实例,支持基本的基于角色的访问控制,比如云上的传统数据库,通常就是这种模式。 在这种场景下从云平台的角度来看是支持多个租户的,但是每个租户购买的是独立的实例,在实例内部做角色划分,实例之间的数据是完全独立的。


第二种形态是控制平面多租,比如元数据和权限管控是多租的,但是计算资源是相对独立的。大数据的场景因为需要支持复杂的计算,通常会将计算资源单独拿出来管理。


第三种是更广泛意义上的多租,share everything。从管控、计算到存储使用的都是多租的资源,也可以称之为强多租。


随着多租程度的提升,从用户的角度来看,系统的可扩展性越好,可以很方便的进行资源的扩缩容,但是云平台自身的系统复杂度更高。我们知道系统复杂度越高,往往会带来更多的稳定性问题;由于不同用户的作业运行在一起,安全性上的要求也越高,特别是在公共云的场景。


今天的分享更多关注的是计算和存储的多租实现。关于管控方面,基于RBAC或者基于权限表的权限管理、行级列级权限也是大数据平台多租实现的一部分,但不是今天分享的重点。回到计算和存储的多租上,实现上会有不同的组合方式。


单租计算和开放存储


一种典型的形态是单租计算加开放存储的模式,比如AWS EMR和Databricks等。



以上是Databricks的架构图,我们可以看到,管控平面是多租的,而不同用户的计算资源是单租的,存储则用的类似S3这样的开放存储。管控使用的是databricks的账号,而计算资源归属于用户自己的vpc。这种模式的优势在于,由于计算资源是单租的,所以可以支持复杂的UDF,而不用太考虑安全的问题。同时因为存储是开放的,可以很方便的将计算弹到其他云上,支持多云。面临的挑战在于资源的粒度是租户级别的,需要提前购买,弹性扩缩容完全依赖云平台的弹性。多租云存储的读写存在效率问题,计算与存储的物理位置相对较远,可能还要经过网关,有带宽的转发瓶颈,需要进行数据预取和缓存等;同时计算过程产生的中间数据因为性能的考虑,不能完全依赖云存储,需要考虑其他方式,比如内存或本地存储的方式。


多租计算和内部存储


像BigQuery和MaxCompute的实现比较类似,采用的是多租计算加内部存储的模式。



计算和存储的资源都是多租的,计算和存储可以位于同一个机房内,物理位置比较接近。优势在于极致弹性,用户可以在不持有物理资源的情况下,运行大规模的任务,并且可以按照用户作业实际使用的资源收费。而内部存储的实现,计算和存储之间可以有大容量的带宽,可以充分利用底层存储特性来做优化。而这种模式的挑战在于UDF的支持。UDF是大数据场景经常会提供的一个功能,利用自定义函数的形式来支持复杂的计算。我们需要避免一个恶意用户的代码威胁到平台或者其他租户的安全。这方面BigQuery和MaxCompute有不同的实现,BigQuery在UDF的实现上相对比较克制,提供了js的UDF,但是对能力做了一些裁剪,而MaxCompute则借助安全容器来支持了完整的UDF能力,这块在后面有介绍。不过在云平台上来实现安全容器会有二次虚拟化的限制,所以我们需要裸金属或者物理机这样的资源形态。


多租的优势和挑战


多租的优势在于开箱即用,无需创建独立的资源池。可以实现秒级扩容,极致弹性。单租资源池依赖云主机的话,从资源的购买到软件环境的准备,可能要到分钟级别,而在多租的平台上可能只是一个配置的参数变更。计费上多租可以做到按照实际计算的开销付费,而单租资源池的收费是按照资源池的规格来收费,不去管到底有没有使用。当然云平台可以根据资源使用的水位来进行动态的扩缩容,不过在资源售卖的粒度上还是有本质的差异。在成本方面,多租资源池通过不同租户作业之间的削峰填谷,可以带来更高的资源利用率,而云平台将这部分让利给用户,可以带来成本上的优势。


当然这里面也会带来了一些技术挑战,首先存储方面,云存储需要解决远程读写和中间文件存储的问题;而内部存储可以实现定制优化,但是存储的开放性是一个问题。在资源调度层面我们需要保证不同租户、不同类型的作业在平台上能够得到公平合理的调度,支持超大规模的计算节点;运行时上,针对UDF或者三方引擎的场景,需要实现运行时的隔离,保证租户之间不会出现数据的越权访问,或者单租户的恶意代码影响到平台和其他租户的安全;同时对于用户定制化的网络需求,也需要在租户层面实现打通,不能够做集群层面的打通。




通过一张图来直观的看下单租和多租的差异,单租的资源池通过IAAS层的隔离来保障了多租户之间的安全,而多租则需要大数据平台自己来解决内部的安全问题。在这些挑战中,关于资源调度层主要关注的是大规模场景下的性能和可扩展性,而来自安全的挑战则是方案是否可行的关键。如果无法保障多租的安全,对云服务来说是不可接受的。


MaxCompute多租实现


MaxCompute是阿里云提供的用于大数据分析场景的、企业级的云数仓,提供的是全托管serverless的服务。而我们多租的实现是一个强多租的实现。我们支持了SQL、java 和python的UDF能力,支持基于机器学习平台PAI的算法组件实现对MaxCompute数据进行模型训练等操作,同时也支持开源spark的任务类型,而这些都是在统一的计算和存储资源上提供的。


内部存储


存储方面我们使用了飞天自研的存储引擎pangu,实现了基于capability的权限模型。在不直接对外开放访问的情况下,权限模型是可以简化的。由于是内部存储,我们可以实现分布式访问,避免中心化节点带来的性能瓶颈。同时对于作业运行过程中的临时数据,我们可以利用内部存储实现更好的local化和管理。


资源管控


一个多租的资源池离不开一个好的资源调度引擎。在资源管控的调度层面,我们实现一套高效可扩展的资源调度系统,在调度和资源管理的层面都提供了横向扩展的能力,可以支持大规模的计算节点;同时保证不同租户不同类型的任务在平台上能够得到相对公平的调度,做了完善的failover的处理。资源的形态上我们提供了预付费和后付费的资源形态,预付费资源能够得到更多的资源保障,后付费的用户则按照资源的需求规格和时间的先后顺序进行调度。




在资源管控的主机层面,我们通过cgroup的机制实现了作业级别的资源管控,来保证一个作业的异常不会影响到其他作业。支持作业的不同启动方式,进程方式或者容器方式,也可以同时管理cpu或者gpu的资源形态。


运行时隔离


基于灵活性和扩展性的考虑,MaxCompute在SQL语言里面支持了用户自定义函数即UDF的能力,方便用户对计算行为进行扩展,同时也引入了三方引擎,比如spark的支持。这些对平台来说是不可信代码,可能触发非预期的系统破坏,或者就是有恶意用户进行攻击。我们通过轻量级的安全容器(虚拟化容器),实现了进程级别的隔离。也就是说将不可信代码运行在安全容器内部。


考虑到MaxCompute的集群规模和大数据计算任务时间短的特点,对安全容器的稳定性和性能会有比较高的要求,我们也做了针对性的优化。首先在安全性上,我们对vm内核进行了裁剪,去掉了不必要的内核功能,减少攻击面,并提供必要的防护机。在网络上禁止了默认的外部网络访问。虽然我们是一个离线数据计算平台,用户对时延没有那么敏感,但是对整个链路上的优化也是我们一直努力的方向,所以对安全容器的启动速度做了很多优化。虚拟化的实现会有额外的资源占用,技术上需要降低vm的资源使用量,提高单机的计算密度,进而能够运行更多的任务。而计算数据的读写,则需要在安全容器内外建立高效的数据通道。


网络通信


我们有了隔离的安全容器之后,针对类似spark的任务,节点之间需要互相通信,比如spark的driver和worker之间需要进行任务的分发和状态的监控之类。基于安全的考虑,这些通信无法构建在主机网络之上,所以我们基于安全容器构造了vxlan的虚拟网络。让同一个任务的所有节点运行在同一个虚拟网络中,虚拟网络中的节点通过私网IP进行通信,无法访问主机网络。而对于用户定制化的外部网络需求,比如访问公网上的一个接口或者vpc内部的其他数据服务,我们也做了任务级别的打通。用户在作业启动时声明需要访问的网络目标,在必要的权限检查后,在作业维度上实现网络的打通。


同样因为任务频繁启停和规模的问题,虚拟网络的构建和通信也会面临比较大的压力。我们知道云上vpc的创建通常也是基于vxlan的技术,但是vpc的创建是相对固定的,一个用户通常只有一个vpc,购买主机则是往vpc中添加节点,操作相对低频。而我们需要面对一个任务创建一个vpc,并且在短时间内拉起任务内的成百上千个节点,对性能上会有比较大的挑战。

通过以上的技术,我们在单一的资源池上实现了强多租,让更多的业务形态成为可能。基于以上安全容器和虚拟网络的隔离,我们在一个多租的集群上提供了强大的UDF的实现。相对于其他平台提供的UDF,我们在UDF的能力上限制更少,允许访问本地IO和网络的功能,能够访问用户vpc内部的数据。比如湖仓一体的场景中,我们可以通过创建networklink的方式打通对用户vpc的网络访问,在创建外部数据源的时候关联networklink后,就可以在MaxCompute内部通过SQL访问外部数据,目前这些在MaxCompute的平台上都已经做了产品化的实现。而任务级别的隔离,使得我们可以在单个集群内提供混合的计算形态,除了SQL和UDF的实现外,我们还支持了内部的PAI机器学习平台和开源的spark引擎等。


多租的思考和演进


多租的设计上,面向不同的业务场景、产品形态和基础设施时,会有不同的实现。回到设计的初衷,我们为什么要在统一的计算存储的资源上实现强多租?MaxCompute是一个内部孵化的产品,目前集团内部99%以上的离线数据都运行在Maxcompute的平台上。在业务形态上,我们期望兼容hive的udf生态和支持开源生态,而源于集团内部对于数据安全的要求,所以一早我们就是多租安全的实现。在面向公有云服务时,我们又期望在资源粒度、弹性和成本上为客户提供优势,促使我们最终坚持了强多租的形态。


而在未来的演进方向上,前面也说到我们使用的内部存储,我们期望在存储层面面对计算的场景进一步提升我们的开放性。多租的场景下,某个大客户临时突发的大规模资源消耗对平台来说相对是不友好的,可能会导致其他用户的作业产生排队,所以在面对这样的客户时提供单租的计算形态也是一个选择。而开放存储和单租计算将为后续多云形态提供支撑,方便用户有更多的选择,用不同的组合去满足用户个性化的需求。


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
7天前
|
存储 机器学习/深度学习 SQL
大数据处理与分析技术
大数据处理与分析技术
32 2
|
26天前
|
存储 分布式计算 数据可视化
大数据常用技术与工具
【10月更文挑战第16天】
88 4
|
9天前
|
存储 分布式计算 NoSQL
【赵渝强老师】大数据技术的理论基础
本文介绍了大数据平台的核心思想,包括Google的三篇重要论文:Google文件系统(GFS)、MapReduce分布式计算模型和BigTable大表。这些论文奠定了大数据生态圈的技术基础,进而发展出了Hadoop、Spark和Flink等生态系统。文章详细解释了GFS的架构、MapReduce的计算过程以及BigTable的思想和HBase的实现。
|
1月前
|
存储 数据采集 监控
大数据技术:开启智能决策与创新服务的新纪元
【10月更文挑战第5天】大数据技术:开启智能决策与创新服务的新纪元
|
9天前
|
SQL 存储 算法
比 SQL 快出数量级的大数据计算技术
SQL 是大数据计算中最常用的工具,但在实际应用中,SQL 经常跑得很慢,浪费大量硬件资源。例如,某银行的反洗钱计算在 11 节点的 Vertica 集群上跑了 1.5 小时,而用 SPL 重写后,单机只需 26 秒。类似地,电商漏斗运算和时空碰撞任务在使用 SPL 后,性能也大幅提升。这是因为 SQL 无法写出低复杂度的算法,而 SPL 提供了更强大的数据类型和基础运算,能够实现高效计算。
|
12天前
|
存储 人工智能 分布式计算
大数据& AI 产品月刊【2024年10月】
大数据& AI 产品技术月刊【2024年10月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
12天前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
30 3
|
12天前
|
存储 大数据 OLAP
大数据数据分区技术
【10月更文挑战第26天】
42 2
|
15天前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
49 2

相关产品

  • 云原生大数据计算服务 MaxCompute