《CDP企业数据云平台从入门到实践》——CDP之操作型数据库(3)

简介: 《CDP企业数据云平台从入门到实践》——CDP之操作型数据库(3)

《CDP企业数据云平台从入门到实践》——CDP之数据储存(2) https://developer.aliyun.com/article/1226409?spm=a2c6h.13148508.setting.14.12f54f0eNj6eW1


3. 如何使用 OPDB?


OPDB 可以在 HUE 中使用,HUE 支持 HBase 的搜索、插入、更新、删除、DDL 等操作。

image.png


同时,HUE 支持 SQL(Phonix)接口,可以在 HUE 中通过 Phonix 接口调用 HBase数据插入、更新、删除查询。


image.png


4. 快速启动项目


参考网址:https://github.com/cloudera/cod-examples


下图列举了基于 Java、Python 和 C#的入门示例,以方便大家体验 OPDB。


image.png



三、 企业就绪的 OPDB


OPDB 是一款企业就绪的产品。


1. OPDB 的安全模型


1) 认证


基于 Kerberos 的身份验证,可以与大多数企业身份和角色管理系统集成。


2) 授权


OPDB 通过 Ranger 进行授权管理,Ranger 中的命名空间、表、列族和列范围可以设置读、写、创建或管理权限。


3) 加密


数据加密通过 TSL 来完成:

• 传输中数据的传输级加密(RPC、WAL)。

• 静态数据的文件级加密(HFiles)。


2. 开箱即用的高可用性


OPDB 中的数据分布在 Ragion Server(RS)中,如下图所示,表(Table)按键范围划分为区域,RS 管理多个区域,并维护预写日志(WAL)以跟踪突变,WAL 和区域文件保存在共享文件系统(HDFS 或对象存储)中。

image.png

当 Region Server 崩溃时,受影响区域的客户端请求(读取、写入)将超时。


受影响的区域被重新分配给剩余的区域服务器,并重播 WAL 使受影响的区域保持更新。至此可以再次为受影响的地区提供服务,恢复时间<1 分钟。


如下图所示,假设 RS3 崩溃,其中的 D 和 F 将被重新分配到 RS1 和 RS2 中,并通过共享文件系统访问数据。


3. OPDB 复制


OPDB 的复制用于实施弹性和灾难恢复的全功能。


OPDB 的特性:


• OPDB 复制是异步复制。

• 最终或时间线的一致性。

• 作用于命名空间、表或列族。

• 任意拓扑

单向(A->B)

双向(A<-->B)

一对多(A->B,C,D)

循环(A->B->C->A)


1) 混合集群类型


• 跨数据中心、区域或可用区。

• 不同大小的源和目标集群。

• 从不安全到安全的集群。

• 跨 Kerberos 域,没有 x-realm 信任。


2) 批量加载被复制

image.png


4. 备份和灾难恢复选项


备份和灾难恢复常见的方式有:Replication 和 Snapshots,对于小数据量可以使用SyncTable 和 CopyTable。

image.png


1) Replication


可以自动进行完整的复制,在配置完成后将 HBase 从源自动复制到目标端,是目前最新的一种复制方式。


2) 快照(Snapshots)


• 快照在创建时占用空间很小,但可能会随着时间的推移而扩展,具体取决于数据更改率。

• 如果是灾备,要将它们运送到另一个系统,则需要完整的数据副本。

• 同样,远程系统上的快照加载比本地系统上的加载花费更长的时间。


5. 资源管理


如图所示,配额的范围可以是用户、表或命名空间。

image.png


《CDP企业数据云平台从入门到实践》——CDP之数据储存(4) https://developer.aliyun.com/article/1226399?groupCode=ClouderaCDP



目录
相关文章
|
7月前
|
存储 JSON 关系型数据库
【干货满满】解密 API 数据解析:从 JSON 到数据库存储的完整流程
本文详解电商API开发中JSON数据解析与数据库存储的全流程,涵盖数据提取、清洗、转换及优化策略,结合Python实战代码与主流数据库方案,助开发者构建高效、可靠的数据处理管道。
|
5月前
|
数据采集 关系型数据库 MySQL
python爬取数据存入数据库
Python爬虫结合Scrapy与SQLAlchemy,实现高效数据采集并存入MySQL/PostgreSQL/SQLite。通过ORM映射、连接池优化与批量提交,支持百万级数据高速写入,具备良好的可扩展性与稳定性。
|
10月前
|
存储 缓存 数据库
数据库数据删除策略:硬删除vs软删除的最佳实践指南
在项目开发中,“删除”操作常见但方式多样,主要分为硬删除与软删除。硬删除直接从数据库移除数据,操作简单、高效,但不可恢复;适用于临时或敏感数据。软删除通过标记字段保留数据,支持恢复和审计,但增加查询复杂度与数据量;适合需追踪历史或可恢复的场景。两者各有优劣,实际开发中常结合使用以满足不同需求。
980 4
|
6月前
|
存储 数据管理 数据库
数据字典是什么?和数据库、数据仓库有什么关系?
在数据处理中,你是否常困惑于字段含义、指标计算或数据来源?数据字典正是解答这些问题的关键工具,它清晰定义数据的名称、类型、来源、计算方式等,服务于开发者、分析师和数据管理者。本文详解数据字典的定义、组成及其与数据库、数据仓库的关系,助你夯实数据基础。
数据字典是什么?和数据库、数据仓库有什么关系?
|
5月前
|
人工智能 Java 关系型数据库
使用数据连接池进行数据库操作
使用数据连接池进行数据库操作
156 11
|
6月前
|
存储 关系型数据库 数据库
【赵渝强老师】PostgreSQL数据库的WAL日志与数据写入的过程
PostgreSQL中的WAL(预写日志)是保证数据完整性的关键技术。在数据修改前,系统会先将日志写入WAL,确保宕机时可通过日志恢复数据。它减少了磁盘I/O,提升了性能,并支持手动切换日志文件。WAL文件默认存储在pg_wal目录下,采用16进制命名规则。此外,PostgreSQL提供pg_waldump工具解析日志内容。
599 0
|
数据采集 数据库 Python
有哪些方法可以验证用户输入数据的格式是否符合数据库的要求?
有哪些方法可以验证用户输入数据的格式是否符合数据库的要求?
715 174
|
8月前
|
存储 SQL Java
数据存储使用文件还是数据库,哪个更合适?
数据库和文件系统各有优劣:数据库读写性能较低、结构 rigid,但具备计算能力和数据一致性保障;文件系统灵活易管理、读写高效,但缺乏计算能力且无法保证一致性。针对仅需高效存储与灵活管理的场景,文件系统更优,但其计算短板可通过开源工具 SPL(Structured Process Language)弥补。SPL 提供独立计算语法及高性能文件格式(如集文件、组表),支持复杂计算与多源混合查询,甚至可替代数据仓库。此外,SPL 易集成、支持热切换,大幅提升开发运维效率,是后数据库时代文件存储的理想补充方案。