每日一博 - MPP(Massively Parallel Processing,大规模并行处理)架构

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
简介: 每日一博 - MPP(Massively Parallel Processing,大规模并行处理)架构


概述



MPP(Massively Parallel Processing,大规模并行处理)架构是一种常见的数据库系统架构,主要用于提高数据处理性能。它通过将多个单机数据库节点组成一个集群,实现数据的并行处理。


在 MPP 架构中,MPP采用非共享架构(Share Nothing), 每个节点都拥有独立的磁盘存储和内存系统,它们在计算过程中独立运行,不需要关心整个集群的状态,也不关心其他节点存储的数据信息。


节点之间通过专用网络或商业通用网络连接,当需要使用其他节点的数据时,通过网络进行数据传输和协同计算。

在设计上,MPP架构优先考虑一致性(Consistency),其次考虑可用性(Availability),同时尽量做到分区容错性(Partition Tolerance)。


MPP架构常用于数据仓库、数据集市、大数据分析等场景,其分布式设计能够有效应对数据规模的不断增长和复杂度的提高,但也会面临一些挑战。




优点

MPP 架构的优点包括:


. 高性能:通过并行处理,MPP 架构可以显著提高数据处理速度。


. 一致性:由于每个节点本质上仍然是数据库,因此 MPP 架构在设计时优先考虑一致性(C),其次考虑可靠性(A),尽量做好分区容错性(P)。这使得 MPP 架构能够保证数据的一致性。


低延迟:MPP 架构中,各个节点的运算延迟相对较低。




缺点


然而,MPP 架构也存在一些缺点:


   扩展性:由于非共享架构,MPP 架构在存储位置上不透明,数据在存储时通过哈希确定物理节点。在执行任务时,无法确定数据的位置,因此查询任务需要在所有节点上执行。这使得 MPP 架构在扩展性方面较差,尤其是在大规模数据处理时,单节点瓶颈会成为整个系统的短板。


   故障率:随着集群规模的增大,节点的故障率会逐渐升高,这将导致整个系统的性能瓶颈越发明显。

   当进行并行计算时,计算任务会被分发到所有节点上进行计算,单节点瓶颈会成为整个系统短板,容错性差,可能会导致整个系统的响应缓慢。另外,MPP架构本身的节点数和数据量较大,节点故障成本也较高。

d1e21226efd642309b9751ae4f048c8e.png



  • 分布式事务:MPP 架构一般致力于实现分布式事务,但在分布式环境中实现事务后,扩展性一定会受到影响。

MPP架构由于节点之间分散存储,远程调用在事务处理时会有延迟,而一些事务操作需要跨越多个节点进行处理,这时分布式系统的事务处理会变得很复杂,影响系统的可扩展性。


65bbdb83c50048c0b530cb1195032867.png



小结


总之,MPP 架构是一种高性能的数据库系统架构,适用于中等规模的结构化数据处理。尽管它存在一些局限性,但在某些场景下,其性能优势仍然使其成为一个有吸引力的选择。

相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
4月前
|
存储 缓存 Cloud Native
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样
|
26天前
|
机器学习/深度学习 自然语言处理 分布式计算
大规模语言模型与生成模型:技术原理、架构与应用
本文深入探讨了大规模语言模型(LLMs)和生成模型的技术原理、经典架构及应用。介绍了LLMs的关键特点,如海量数据训练、深层架构和自监督学习,以及常见模型如GPT、BERT和T5。同时,文章详细解析了生成模型的工作原理,包括自回归模型、自编码器和GANs,并讨论了这些模型在自然语言生成、机器翻译、对话系统和数据增强等领域的应用。最后,文章展望了未来的发展趋势,如模型压缩、跨模态生成和多语言多任务学习。
104 3
|
4月前
|
存储 NoSQL 关系型数据库
MPP架构数据仓库使用问题之Visibility bitmap表被删除的文件信息是如何记录的
MPP架构数据仓库使用问题之Visibility bitmap表被删除的文件信息是如何记录的
|
1月前
|
存储 SQL Apache
Apache Doris 开源最顶级基于MPP架构的高性能实时分析数据库
Apache Doris 是一个基于 MPP 架构的高性能实时分析数据库,以其极高的速度和易用性著称。它支持高并发点查询和复杂分析场景,适用于报表分析、即席查询、数据仓库和数据湖查询加速等。最新发布的 2.0.2 版本在性能、稳定性和多租户支持方面有显著提升。社区活跃,已广泛应用于电商、广告、用户行为分析等领域。
Apache Doris 开源最顶级基于MPP架构的高性能实时分析数据库
|
4月前
|
SQL 算法 关系型数据库
MPP架构数据仓库使用问题之ADB PG对于sort scan算子要如何生成并优化
MPP架构数据仓库使用问题之ADB PG对于sort scan算子要如何生成并优化
|
4月前
|
缓存 Cloud Native 关系型数据库
MPP架构数据仓库使用问题之Calcite 是一个什么样的类库,它主要用于什么地方
MPP架构数据仓库使用问题之Calcite 是一个什么样的类库,它主要用于什么地方
|
4月前
|
缓存 Cloud Native 关系型数据库
MPP架构数据仓库使用问题之DADI的文件异步预取机制是怎么工作的
MPP架构数据仓库使用问题之DADI的文件异步预取机制是怎么工作的
|
4月前
|
存储 缓存 安全
MPP架构数据仓库使用问题之DADI相比其他方案,在资源使用上有什么优势
MPP架构数据仓库使用问题之DADI相比其他方案,在资源使用上有什么优势
|
4月前
|
存储 NoSQL 索引
MPP架构数据仓库使用问题之在ORC文件中,String类型字段是怎么进行编码的
MPP架构数据仓库使用问题之在ORC文件中,String类型字段是怎么进行编码的
|
4月前
|
存储 缓存 固态存储
MPP架构数据仓库使用问题之ADB PG的性能优化点主要包括什么方面
MPP架构数据仓库使用问题之ADB PG的性能优化点主要包括什么方面
下一篇
DataWorks