java大数据组件HBase

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: java大数据组件HBase

1.什么是HBase:



1.是一个非关系型数据库(稀疏矩阵)


(1)关系型数据库:有固定的列,每一列的数据类型明确


(2)非结构化数据,半结构化数据。


2.存储的目标数据


(1)数据量大


(2)结构简单


(3)基于key的快速查找能力


(4)可以面向列进行查询


3.为什么要有hbase,为什么不用hdfs:


(1)因为hdfs适用的场景是海量的数据批读写,不支持海量数据中的个别数据修改


(2)而Hbase支持在海量数据中,修改某一个数据。


(3)Hbase的快,是相对于hdfs来说的。


2.数据仓库的特点



1.面向主题:每一种数据分析的方向都有对应的主题,主题是一个抽象的概念,主题不是固定的。


2.数据集成:任何一个主题的数据,最好是可以轻易的集成在一起。


3.非易失:用于保存历史归档数据,同时也是增量数据。


4.反应历史变化:通常不会删,会一直保存下去


3.hbase的数据结构



1.逻辑结构


(1)列族:多个列的组合


①在数据底层当中,各个列族之间,数据是分开存储的。


(2)列:一个列族下有若干的列


①注意:hbase的列,没有数据类型,都是string


②不需要在建表时声明


(3)行:rowkey


①所有的列族,所有的列,都可以引用同一个行号,但是不强制要求各个行之间对应


②可以当做索引用


③按字典顺序排序的


④要在hbase当中查某一行,只能通过行号来查,因为hbase是基于列数据进行查询的。但是行号是可以过滤的,行号是可以随意设置的。可以把某个常用列的值作为key的一部分,方便过滤。


⑤Hbase是有分区的,同一行数据,只会出现在一个分区当中


⑥一个分区中有若干的Store,一个Store中保存一个列族


4.物理结构



1.物理存储结构,即在物理文件当中,hbase数据的存储格式。


2.是基于列进行查询的,任何一个字段单元格都是一个独立的数据。


(1)Rowkey


(2)列族名


(3)列名


(4)时间戳


(5)操作类型


(6)值


(7)版本号


3.hbase当中没有真正意义上的update,所谓的修改和删除,是追加了一条数据,已最新的时间戳来显示。如果是删除数据,会将该数据的类型改为delete,删除的数据不会永久保留,如果没有正在进行的读写,那么就会启动删除。牺牲了一部分读的性能,换取写的性能。


5.hbase的shell操作



1.建表:create ‘[命名空间:]表名’,’列族名1’,’列族名2’……


2.添加/修改记录:put ‘[命名空间:]表明’,’行名’,’列族名:列名’,’值’


3.获取一行记录:get ‘[命名空间:]表明’,’行名’


4.获取记录数:count ‘[命名空间:]表明’ ---- 行数!!!


5.删除记录:delete ‘[命名空间:]表明’,’行名’,’列族名:列名’


6.scan命令:


(1)属性


①查询指定列


②指定行数


③起始行


④结束行


⑤时间戳


⑥版本


(2)过滤器:


①对值过滤


②binary等值


③substring包含


④列前缀过滤


⑤列明包含过滤


⑥Rowkey前缀过滤


相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
11天前
|
分布式计算 Java Hadoop
java使用hbase、hadoop报错举例
java使用hbase、hadoop报错举例
34 3
|
2月前
|
Java 大数据 分布式数据库
Spring Boot 与 HBase 的完美融合:探索高效大数据应用开发的新途径
【8月更文挑战第29天】Spring Boot是一款广受好评的微服务框架,以其便捷的开发体验著称。HBase则是一个高性能的大数据分布式数据库系统。结合两者,可极大简化HBase应用开发。本文将对比传统方式与Spring Boot集成HBase的区别,展示如何在Spring Boot中优雅实现HBase功能,并提供示例代码。从依赖管理、连接配置、表操作到数据访问,Spring Boot均能显著减少工作量,提升代码可读性和可维护性,使开发者更专注业务逻辑。
105 1
|
13天前
|
IDE Java 分布式数据库
Apache HBase 落地JAVA 实战
Apache HBase 落地 Java 实战主要涉及使用 Java API 来操作 HBase 数据库,包括表的创建、删除、数据的插入、查询等操作。以下是一个基于 Java 的 HBase 实战指南,包括关键步骤和示例代码。
61 23
|
7天前
|
存储 分布式计算 资源调度
两万字长文向你解密大数据组件 Hadoop
两万字长文向你解密大数据组件 Hadoop
26 11
|
14天前
|
存储 分布式计算 分布式数据库
深入理解Apache HBase:构建大数据时代的基石
在大数据时代,数据的存储和管理成为了企业面临的一大挑战。随着数据量的急剧增长和数据结构的多样化,传统的关系型数据库(如RDBMS)逐渐显现出局限性。
73 12
|
10天前
|
缓存 Java Linux
java操作hbase报错:KeeperErrorCode=NoNode for /hbase-unsecure/master
java操作hbase报错:KeeperErrorCode=NoNode for /hbase-unsecure/master
20 2
|
1月前
|
存储 SQL 分布式计算
Java连接阿里云MaxCompute例
要使用Java连接阿里云MaxCompute数据库,首先需在项目中添加MaxCompute JDBC驱动依赖,推荐通过Maven管理。避免在代码中直接写入AccessKey,应使用环境变量或配置文件安全存储。示例代码展示了如何注册驱动、建立连接及执行SQL查询。建议使用RAM用户提升安全性,并根据需要配置时区和公网访问权限。具体步骤和注意事项请参考阿里云官方文档。
|
2月前
|
存储 搜索推荐 Java
探索安卓开发中的自定义视图:打造个性化UI组件Java中的异常处理:从基础到高级
【8月更文挑战第29天】在安卓应用的海洋中,一个独特的用户界面(UI)能让应用脱颖而出。自定义视图是实现这一目标的强大工具。本文将通过一个简单的自定义计数器视图示例,展示如何从零开始创建一个具有独特风格和功能的安卓UI组件,并讨论在此过程中涉及的设计原则、性能优化和兼容性问题。准备好让你的应用与众不同了吗?让我们开始吧!
|
2月前
|
缓存 监控 Java
"Java垃圾回收太耗时?阿里HBase GC优化秘籍大公开,让你的应用性能飙升90%!"
【8月更文挑战第17天】阿里巴巴在HBase实践中成功将Java垃圾回收(GC)时间降低90%。通过选用G1垃圾回收器、精细调整JVM参数(如设置堆大小、目标停顿时间等)、优化代码减少内存分配(如使用对象池和缓存),并利用监控工具分析GC行为,有效缓解了高并发大数据场景下的性能瓶颈,极大提升了系统运行效率。
53 4
|
2月前
|
分布式计算 大数据 分布式数据库
"揭秘HBase MapReduce高效数据处理秘诀:四步实战攻略,让你轻松玩转大数据分析!"
【8月更文挑战第17天】大数据时代,HBase以高性能、可扩展性成为关键的数据存储解决方案。结合MapReduce分布式计算框架,能高效处理HBase中的大规模数据。本文通过实例展示如何配置HBase集群、编写Map和Reduce函数,以及运行MapReduce作业来计算HBase某列的平均值。此过程不仅限于简单的统计分析,还可扩展至更复杂的数据处理任务,为企业提供强有力的大数据技术支持。
43 1

热门文章

最新文章

下一篇
无影云桌面