java大数据组件HBase

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: java大数据组件HBase

1.什么是HBase:



1.是一个非关系型数据库(稀疏矩阵)


(1)关系型数据库:有固定的列,每一列的数据类型明确


(2)非结构化数据,半结构化数据。


2.存储的目标数据


(1)数据量大


(2)结构简单


(3)基于key的快速查找能力


(4)可以面向列进行查询


3.为什么要有hbase,为什么不用hdfs:


(1)因为hdfs适用的场景是海量的数据批读写,不支持海量数据中的个别数据修改


(2)而Hbase支持在海量数据中,修改某一个数据。


(3)Hbase的快,是相对于hdfs来说的。


2.数据仓库的特点



1.面向主题:每一种数据分析的方向都有对应的主题,主题是一个抽象的概念,主题不是固定的。


2.数据集成:任何一个主题的数据,最好是可以轻易的集成在一起。


3.非易失:用于保存历史归档数据,同时也是增量数据。


4.反应历史变化:通常不会删,会一直保存下去


3.hbase的数据结构



1.逻辑结构


(1)列族:多个列的组合


①在数据底层当中,各个列族之间,数据是分开存储的。


(2)列:一个列族下有若干的列


①注意:hbase的列,没有数据类型,都是string


②不需要在建表时声明


(3)行:rowkey


①所有的列族,所有的列,都可以引用同一个行号,但是不强制要求各个行之间对应


②可以当做索引用


③按字典顺序排序的


④要在hbase当中查某一行,只能通过行号来查,因为hbase是基于列数据进行查询的。但是行号是可以过滤的,行号是可以随意设置的。可以把某个常用列的值作为key的一部分,方便过滤。


⑤Hbase是有分区的,同一行数据,只会出现在一个分区当中


⑥一个分区中有若干的Store,一个Store中保存一个列族


4.物理结构



1.物理存储结构,即在物理文件当中,hbase数据的存储格式。


2.是基于列进行查询的,任何一个字段单元格都是一个独立的数据。


(1)Rowkey


(2)列族名


(3)列名


(4)时间戳


(5)操作类型


(6)值


(7)版本号


3.hbase当中没有真正意义上的update,所谓的修改和删除,是追加了一条数据,已最新的时间戳来显示。如果是删除数据,会将该数据的类型改为delete,删除的数据不会永久保留,如果没有正在进行的读写,那么就会启动删除。牺牲了一部分读的性能,换取写的性能。


5.hbase的shell操作



1.建表:create ‘[命名空间:]表名’,’列族名1’,’列族名2’……


2.添加/修改记录:put ‘[命名空间:]表明’,’行名’,’列族名:列名’,’值’


3.获取一行记录:get ‘[命名空间:]表明’,’行名’


4.获取记录数:count ‘[命名空间:]表明’ ---- 行数!!!


5.删除记录:delete ‘[命名空间:]表明’,’行名’,’列族名:列名’


6.scan命令:


(1)属性


①查询指定列


②指定行数


③起始行


④结束行


⑤时间戳


⑥版本


(2)过滤器:


①对值过滤


②binary等值


③substring包含


④列前缀过滤


⑤列明包含过滤


⑥Rowkey前缀过滤


相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
2月前
|
存储 分布式计算 API
大数据-107 Flink 基本概述 适用场景 框架特点 核心组成 生态发展 处理模型 组件架构
大数据-107 Flink 基本概述 适用场景 框架特点 核心组成 生态发展 处理模型 组件架构
109 0
|
1月前
|
SQL 数据采集 分布式计算
【赵渝强老师】基于大数据组件的平台架构
本文介绍了大数据平台的总体架构及各层的功能。大数据平台架构分为五层:数据源层、数据采集层、大数据平台层、数据仓库层和应用层。其中,大数据平台层为核心,负责数据的存储和计算,支持离线和实时数据处理。数据仓库层则基于大数据平台构建数据模型,应用层则利用这些模型实现具体的应用场景。文中还提供了Lambda和Kappa架构的视频讲解。
195 3
【赵渝强老师】基于大数据组件的平台架构
|
2月前
|
存储 消息中间件 安全
JUC组件实战:实现RRPC(Java与硬件通过MQTT的同步通信)
【10月更文挑战第9天】本文介绍了如何利用JUC组件实现Java服务与硬件通过MQTT的同步通信(RRPC)。通过模拟MQTT通信流程,使用`LinkedBlockingQueue`作为消息队列,详细讲解了消息发送、接收及响应的同步处理机制,包括任务超时处理和内存泄漏的预防措施。文中还提供了具体的类设计和方法实现,帮助理解同步通信的内部工作原理。
JUC组件实战:实现RRPC(Java与硬件通过MQTT的同步通信)
|
2月前
|
缓存 NoSQL Java
大数据-50 Redis 分布式锁 乐观锁 Watch SETNX Lua Redisson分布式锁 Java实现分布式锁
大数据-50 Redis 分布式锁 乐观锁 Watch SETNX Lua Redisson分布式锁 Java实现分布式锁
75 3
大数据-50 Redis 分布式锁 乐观锁 Watch SETNX Lua Redisson分布式锁 Java实现分布式锁
|
2月前
|
分布式计算 大数据 Java
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
43 1
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
|
2月前
|
SQL 存储 分布式计算
大数据-157 Apache Kylin 背景 历程 特点 场景 架构 组件 详解
大数据-157 Apache Kylin 背景 历程 特点 场景 架构 组件 详解
46 9
|
1月前
|
SQL 分布式计算 大数据
【赵渝强老师】大数据生态圈中的组件
本文介绍了大数据体系架构中的主要组件,包括Hadoop、Spark和Flink生态圈中的数据存储、计算和分析组件。数据存储组件包括HDFS、HBase、Hive和Kafka;计算组件包括MapReduce、Spark Core、Flink DataSet、Spark Streaming和Flink DataStream;分析组件包括Hive、Spark SQL和Flink SQL。文中还提供了相关组件的详细介绍和视频讲解。
|
2月前
|
消息中间件 分布式计算 Java
大数据-73 Kafka 高级特性 稳定性-事务 相关配置 事务操作Java 幂等性 仅一次发送
大数据-73 Kafka 高级特性 稳定性-事务 相关配置 事务操作Java 幂等性 仅一次发送
39 2
|
2月前
|
消息中间件 存储 Java
大数据-58 Kafka 高级特性 消息发送02-自定义序列化器、自定义分区器 Java代码实现
大数据-58 Kafka 高级特性 消息发送02-自定义序列化器、自定义分区器 Java代码实现
60 3
|
2月前
|
分布式计算 Java 大数据
大数据-147 Apache Kudu 常用 Java API 增删改查
大数据-147 Apache Kudu 常用 Java API 增删改查
39 1

热门文章

最新文章