《CDP企业数据云平台从入门到实践》——CDP之数据储存(2) https://developer.aliyun.com/article/1226409?spm=a2c6h.13148508.setting.14.12f54f0eNj6eW1
3. 如何使用 OPDB?
OPDB 可以在 HUE 中使用,HUE 支持 HBase 的搜索、插入、更新、删除、DDL 等操作。
同时,HUE 支持 SQL(Phonix)接口,可以在 HUE 中通过 Phonix 接口调用 HBase数据插入、更新、删除查询。
4. 快速启动项目
参考网址:https://github.com/cloudera/cod-examples
下图列举了基于 Java、Python 和 C#的入门示例,以方便大家体验 OPDB。
三、 企业就绪的 OPDB
OPDB 是一款企业就绪的产品。
1. OPDB 的安全模型
1) 认证
基于 Kerberos 的身份验证,可以与大多数企业身份和角色管理系统集成。
2) 授权
OPDB 通过 Ranger 进行授权管理,Ranger 中的命名空间、表、列族和列范围可以设置读、写、创建或管理权限。
3) 加密
数据加密通过 TSL 来完成:
• 传输中数据的传输级加密(RPC、WAL)。
• 静态数据的文件级加密(HFiles)。
2. 开箱即用的高可用性
OPDB 中的数据分布在 Ragion Server(RS)中,如下图所示,表(Table)按键范围划分为区域,RS 管理多个区域,并维护预写日志(WAL)以跟踪突变,WAL 和区域文件保存在共享文件系统(HDFS 或对象存储)中。
当 Region Server 崩溃时,受影响区域的客户端请求(读取、写入)将超时。
受影响的区域被重新分配给剩余的区域服务器,并重播 WAL 使受影响的区域保持更新。至此可以再次为受影响的地区提供服务,恢复时间<1 分钟。
如下图所示,假设 RS3 崩溃,其中的 D 和 F 将被重新分配到 RS1 和 RS2 中,并通过共享文件系统访问数据。
3. OPDB 复制
OPDB 的复制用于实施弹性和灾难恢复的全功能。
OPDB 的特性:
• OPDB 复制是异步复制。
• 最终或时间线的一致性。
• 作用于命名空间、表或列族。
• 任意拓扑
单向(A->B)
双向(A<-->B)
一对多(A->B,C,D)
循环(A->B->C->A)
1) 混合集群类型
• 跨数据中心、区域或可用区。
• 不同大小的源和目标集群。
• 从不安全到安全的集群。
• 跨 Kerberos 域,没有 x-realm 信任。
2) 批量加载被复制
4. 备份和灾难恢复选项
备份和灾难恢复常见的方式有:Replication 和 Snapshots,对于小数据量可以使用SyncTable 和 CopyTable。
1) Replication
可以自动进行完整的复制,在配置完成后将 HBase 从源自动复制到目标端,是目前最新的一种复制方式。
2) 快照(Snapshots)
• 快照在创建时占用空间很小,但可能会随着时间的推移而扩展,具体取决于数据更改率。
• 如果是灾备,要将它们运送到另一个系统,则需要完整的数据副本。
• 同样,远程系统上的快照加载比本地系统上的加载花费更长的时间。
5. 资源管理
如图所示,配额的范围可以是用户、表或命名空间。
《CDP企业数据云平台从入门到实践》——CDP之数据储存(4) https://developer.aliyun.com/article/1226399?groupCode=ClouderaCDP