OLTP,MPP和Hadoop

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
简介: 我的一些朋友问我有关OLTP,MPP和Hadoop的问题。我试图解释如下。这与撰写本文的时间有关。事情变化如此之快:)。OLTP数据库(Oracle,DB2)与MPP(Netezza,Teradata,Vertica等):1.-DB Oracle或DB2需要在开始处理之前从磁盘读取数据到内存,因此内存计算非常快。-MPP尽可能使处理接近数据,因此减少了数据移动2。-DB Oracle或DB2适合较小的OLTP(事务)操作。它还保持了很高的数据完整性。-MPP适用于批处理。一些MPP(Netezza,Vertica)忽略了Intigrity,例如为了批处理性能而强制执行唯一密钥。

我的一些朋友问我有关OLTP,MPP和Hadoop的问题。我试图解释如下。
这与撰写本文的时间有关。事情变化如此之快:)。

OLTP数据库(Oracle,DB2)与MPP(Netezza,Teradata,Vertica等):
1.-DB Oracle或DB2需要在开始处理之前从磁盘读取数据到内存,因此内存计算非常快。
-MPP尽可能使处理接近数据,因此减少了数据移动

2。-DB Oracle或DB2适合较小的OLTP(事务)操作。它还保持了很高的数据完整性。
-MPP适用于批处理。一些MPP(Netezza,Vertica)忽略了Intigrity,例如为了批处理性能而强制执行唯一密钥。

Hadoop(没有impala或EMC HAWQ)与MPP:
1.-传统的MPP数据库以成熟的内部结构存储数据。因此,使用SQL进行数据加载和数据处理非常有效。
-存储在hadoop上的数据没有这种结构化的体系结构。因此,访问和加载数据不如常规MPP系统有效。
2.-使用常规MPP,它仅支持关系模型(行-列)
-hadoop支持几乎任何类型的数据。

*但是MPP和hadoop的主要目的是相同的,在存储附近并行处理数据。

Cloudera impala(或关键HAWQ)与MPP:
1.-MPP支持高级数据库信息分析
-直到现在(impala 2.0)开始支持“ SQL 2003”,这可能导致他们引入数据库信息分析。
2.-MPP数据库具有行业标准的安全功能和定义良好的用户架构。
-Impala具有非常不完善的安全系统,几乎没有用户架构。
3.-MPP仅支持特定于供应商的文件系统,并且需要使用特定的加载工具加载数据。
-Impala支持大多数打开的文件格式(文本,parquate)

*但是,Impala似乎像Vertica一样成为MPP和Columnar,但在不久的将来会便宜又开放的数据库系统。只需实施安全性并推进数据库分析。

如何选择(一般和我个人的看法):

  1. OLTP数据库(Oracle,DB2,MySQL,MS SQL,Exadata):

-基于事务的应用程序
-较小的DWH
*但是Exadata是混合系统,富贵论坛有处理大约20TB数据的DWH的经验。

  1. MPP(Netezza,Teradata,Vertica)

-更大的数据仓库(可能具有大小超过4-5 TB的表)
-不需要或只需很少的预处理
-需要更快的批处理速度
-在数据库分析中

3.仅Hadoop :
-所有高度非结构化的数据(文档,音频,视频等)
-需要批量处理

  1. Hadoop,主要使用Impala(或EMC HAWQ)

-需要具有低成本的DWH-
无需具有高级分析功能
-可以使用开源工具
-无需担心安全性或有限的用户数量

  1. Hadoop(具有impala或HAWQ)+ MPP:

-一些数据需要大量的预处理,然后才能进行高级分析。
-需要更便宜的查询能力存档或备份较旧的数据。

相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
目录
相关文章
|
5月前
|
SQL 存储 分布式计算
基于Hadoop数据仓库Hive1.2部署及使用
基于Hadoop数据仓库Hive1.2部署及使用
|
SQL 分布式计算 Ubuntu
基于Hadoop的数据仓库Hive安装
基于Hadoop的数据仓库Hive安装
399 0
|
5月前
|
SQL 数据采集 分布式计算
Hadoop和Hive中的数据倾斜问题及其解决方案
Hadoop和Hive中的数据倾斜问题及其解决方案
101 0
|
11月前
|
SQL 存储 Java
45 Hive架构
45 Hive架构
36 0
|
SQL 存储 分布式计算
数据仓库的Hive的Hive架构的HiveServer2
数据仓库是一个面向分析的数据存储系统,其中包含了大量的历史数据,可以用于数据分析和报表生成。Hive是一个开源的数据仓库系统,基于Hadoop平台,可以存储和处理大规模的数据。HiveServer2是Hive的一个重要组成部分,负责接收来自客户端的SQL请求,并将其转换成物理执行计划,然后执行并返回结果。本文将介绍HiveServer2的架构和作用。
259 0
|
SQL 存储 分布式计算
关于数据仓库的Hive的Hive架构的beeline
数据仓库是一个面向分析的数据存储系统,其中包含了大量的历史数据,可以用于数据分析和报表生成。
279 0
|
SQL 存储 分布式计算
|
SQL 存储 关系型数据库
CDP中的Hive3系列之Hive性能调优
要将数据从 RDBMS(例如 MySQL)迁移到 Hive,您应该考虑使用带有 Teradata 连接器的 CDP 中的 Apache Sqoop。Apache Sqoop 客户端基于 CLI 的工具在关系数据库和 HDFS 或云对象存储之间批量传输数据。 需要进行提取、转换和加载 (ETL) 过程的遗留系统数据源通常驻留在文件系统或对象存储中。您还可以以分隔文本(默认)或 SequenceFile 格式导入数据,然后将数据转换为 Hive 推荐的 ORC 格式。通常,为了在 Hive 中查询数据,ORC 是首选格式,因为 ORC 提供了性能增强。
486 0
|
SQL 分布式计算 Hadoop
Alluxio使用——Hive篇
1.服务启停 Zookeeper ./zookeeper/bin.zkServer.sh start ./zookeeper/conf/zoo.cfg ./zookeeper/bin.zkServer.
1923 0
|
分布式计算 Hadoop 分布式数据库
Alluxio使用——HBase篇
1.服务启停 Zookeeper ./zookeeper/bin.zkServer.sh start ./zookeeper/conf/zoo.cfg ./zookeeper/bin.zkServer.
2492 0