Hbase基础使用与云Hbase2.0体验

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
云原生网关 MSE Higress,422元/月
简介: Hbase基础使用与云Hbase2.0体验以及基础使用

又到金三银四的季节,相信各位都已经找到适合自己的工作了~当然我也悄悄告诉你我也找到了,去到更广阔的平台

今年开始决定正式进入大数据领域工作,从事大数据方向方面的开发。因为之前我一直在游戏公司,所以我选择领域是游戏行业的大数据解决方案。目前我的工作主要是负责建立一套游戏大数据运营系统,包括一套完善的游戏数据采集,计算,落地的系统。通过开发一套游戏大数据运营系统提供给我们的游戏运营大佬们。 
通过整合海量数据处理、敏捷BI、智能算法等平台能力,提高游戏日志等数据向业务价值转化的效率及智能化水平。

以前游戏大部分处理游戏日志都是把原始数据通过游戏服保存至Mysql,然后GM后台通过一定的定时逻辑运行定时统计,统计后的数据存入Mysql结果库。随着数据量的不断增长,MySQL传统关系型数据库并不能满足日益增长的数据需求。作为数据仓库需要解决高可用,分布式,存储大量数据的数据库。Hbase就是不错的选择。同时传统的数据统计计算交由Mysql的统计语句对数据进行汇总统计,加剧数据库负担,并且对实际生产环境产生一定的影响。Mysql是一款数据存储引擎,并不适合做大量的数据汇总与计算。计算应该交由专业的计算引擎去做计算【参考计算框架:MR,Spark,Flink】

HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable。 Hbase作为大数据产品家族的一员,存储底层借助Hadoop的HDFS,能够存储海量数据,同时它和mongoDB一样,也是一款NoSQL产品,但是却有一定的区别,例如列族,RowKey这些概念。下面我们来看看Hbase的架构图

HBase 一种是作为存储的分布式文件系统,另一种是作为数据处理模型的 MR 框架。因为日常开发人员比较熟练的是结构化的数据进行处理,但是在 HDFS 直接存储的文件往往不具有结构化,所以催生出了 HBase 在 HDFS 上的操作。如果需要查询数据,只需要通过键值便可以成功访问。 HBase 内置有 Zookeeper,但一般我们会有其他的 Zookeeper 集群来监管 master 和 regionserver,Zookeeper 通过选举,保证任何时候,集群中只有一个活跃的 HMaster,HMaster 与 HRegionServer 启动时会向 ZooKeeper 注册,存储所有 HRegion 的寻址入口,实时监控 HRegionserver 的上线和下线信息。并实时通知给 HMaster,存储 HBase 的 schema 和 table 元数据,默认情况下,HBase 管理 ZooKeeper 实例,Zookeeper 的引入使得 HMaster 不再是 单点故障。一般情况下会启动两个 HMaster,非 Active 的 HMaster 会定期的和 Active HMaster 通信以获取其最新状态,从而保证它是实时更新的,因而如果启动了多个 HMaster 反而增加 了 Active HMaster 的负担。 一个 RegionServer 可以包含多个 HRegion,每个 RegionServer 维护一个 HLog,和多个 HFiles 以及其对应的 MemStore。RegionServer 运行于 DataNode 上,数量可以与 DatNode 数量一致

随着 Spark 以及其社区的不断发展,Spark 及 Spark SQL 本身技术的不断成熟,Spark 在技术架构和性能上都展示出 Hive 无法比拟的优势。以前我们常用Hive进行数据分析,目前Spark结合SparkStreaming,MLib等组件能完美配合完成大数据生态圈的工作

我们通常会通过Kafka消息队列对接SparkStreaming作为消费者,根据Group去消费一组业务的Topic,主要有以下场景:

  • Streaming实时读取Kafka数据做ETL
  • 复杂的ETL可以实时读取HBase/Phoenix的维表数据做关联
  • 结果数据写入HBase/Phoenix对外提供在线查询服务

现在阿里云最近在搞活动,免费1个月Hbase单节点版体验学习。借此机会赶紧学习一下~~ 白用白不用~ 赶紧撸了一台

阿里云Hbase访问控制台

通过管理开通公网访问权限,公网访问必须下载阿里云Hbase客户端,借助ECS 访问ZK地址去访问的。这个大家可以参考官方文档,我这里不做过多的描述。我们连接上去首先先来些简单操作,例如创建一张表Student:

Hbase-UI

我们首先创建表,然后往里面放入数据,人名为czy年龄23的和一条人名为yejoe的,sex为0的数据。Hbase这里存数据是使用put,不是insert,mongdob使用时update,mysql使用insert,大家意思都有点大同小异,最好扫描了一下表结构。

操作记录
取出用户数据和查看表结构
统计student条数(基于RowKey),然后我们修改表结构,最多有3版本,然后再次放入数据,可以看到每次get会取出最新的数据
我们可以看到Hbase控制台查看Table Schema

通过简单学习,是不是发现Hbase原来这么强大,后续我们还会介绍Hbase读写机制,Hbase实际生产应用

***部分图片来自阿里云Hbase

相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
Java 测试技术 C++
hbase2.0 vs hbase1.x 延时比较
背景 hbase2.0已经正式发布,对比之前1.x版本,2.0在读写链路上做了完善的优化,offheap、netty rpc等,这里做个小测试实验对比1.x和2.0在读写上的延时情况。本测试基于特定测试环境与软件版本得到的结果,仅供参考。
5983 0
|
缓存 大数据 分布式数据库
HBase技术与应用实践 | HBase2.0重新定义小对象实时存取
本次分享来自中国HBase技术社区第七届MeetUp成都站,分享嘉宾天引 阿里巴巴 技术专家专注在大数据领域,拥有多年分布式、高并发、大规模系统的研发与实践经验,先后参与HBase、Phoenix、Lindorm等产品的内核引擎研发,目前负责阿里上万节点的HBase As a Service的发展与落地。
2045 0
|
7月前
|
Java Shell 分布式数据库
【大数据技术Hadoop+Spark】HBase数据模型、Shell操作、Java API示例程序讲解(附源码 超详细)
【大数据技术Hadoop+Spark】HBase数据模型、Shell操作、Java API示例程序讲解(附源码 超详细)
164 0
|
3月前
|
分布式计算 Java Hadoop
java使用hbase、hadoop报错举例
java使用hbase、hadoop报错举例
122 4
|
2月前
|
分布式计算 Hadoop Shell
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
85 4
|
2月前
|
SQL 分布式计算 Hadoop
Hadoop-37 HBase集群 JavaAPI 操作3台云服务器 POM 实现增删改查调用操作 列族信息 扫描全表
Hadoop-37 HBase集群 JavaAPI 操作3台云服务器 POM 实现增删改查调用操作 列族信息 扫描全表
39 3
|
2月前
|
分布式计算 Hadoop Shell
Hadoop-36 HBase 3节点云服务器集群 HBase Shell 增删改查 全程多图详细 列族 row key value filter
Hadoop-36 HBase 3节点云服务器集群 HBase Shell 增删改查 全程多图详细 列族 row key value filter
62 3
|
2月前
|
SQL 分布式计算 Hadoop
Hadoop-34 HBase 安装部署 单节点配置 hbase-env hbase-site 超详细图文 附带配置文件
Hadoop-34 HBase 安装部署 单节点配置 hbase-env hbase-site 超详细图文 附带配置文件
107 2
|
2月前
|
存储 分布式计算 Hadoop
Hadoop-33 HBase 初识简介 项目简介 整体架构 HMaster HRegionServer Region
Hadoop-33 HBase 初识简介 项目简介 整体架构 HMaster HRegionServer Region
65 2
|
6月前
|
存储 分布式计算 Hadoop
Hadoop节点文件存储HBase设计目的
【6月更文挑战第2天】
69 6