备案控制台

开发者社区数据库文章正文

实战: 基于HBase的大数据在线分析

2021-08-17 2259

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

RDS MySQL Serverless 基础系列，0.5-2RCU 50GB

Redis 开源版，标准版 2GB

云原生数据库 PolarDB PostgreSQL 版，标准版 2核4GB 50GB

简介： 作者:青道

背景介绍

(一)课程预览

What?

基于HBase存储的应用数据，构建一套大数据处理框架，使用不同方式对HBase数据进行分析。

Why?

HBase作为开源分布式数据库，具备高性能，高可用，海量无限扩展的特点。然而HBase查询接口较简单，无法满足数据分析的需求，但HBase具有丰富数据生态，可以结合大量开源的组件对HBase进行数据分析。

Who?

大数据开发，希望了解HBase数据分析及大数据生态的用户。

How?

本课程将从原理到代码编写，手把手教用户构建基于HBase的大数据分析系统。

(二)HBase数据访问概览

下面介绍一下HBase的数据访问方式，上方为整体架构图。

HBase的访问方式主要有三种。第一种是通过API访问，主要是 Put/Get/Scan这三个接口。对数据过滤、聚合等稍微复杂一点的需求，可以用“filter+coprocessor”的方式结合API来处理。

第二种是通过HFile Reader/Writer。因为HBase是存储计算分离的架构，它的数据文件存在HDFS上，可以直接用HBase提供的HFile Reader/Writer来读写HBase上的数据文件，然后通过Bulkload到HBase表中。

第三种是通过MapReduce框架封装，它提供了几个常用的工具类，API封装是TableInputFormat和 TableOutputFormat。因为框架需要切分任务，它底层会按照HBase表的分区来自动为每个分区并发带来访问数据，HFile的封装也是一样的。

(三)准备工作

1. 购买HBase实例

·购买Lindorm单机版
·Lindorm控制台 -> 实例详情 -> 访问控制 -> 添加开发服务器IP到白名单

2. 配置客户端
·Lindorm控制台 -> 数据库连接 -> 宽表引擎 -> Lindorm shell下载

·从控制台数据库链接页面，获取到hbase-site.xml配置

3. 配置开发环境
·下载安装IDE开发环境
·安装配置好Java环境

注:详细操作步骤和代码，请下载Demo工程。

在线交互式分析

下面进行HBase数据在线交互系统分析，这里的在线交互分析是指在移动HBase数据的场景下，直接对数据进行访问与分析。

(一)在线分析HBase数据 - Spark

1. Spark + HBase 架构

首先可以用“Spark+HBase”架构。

Spark是一个专门为大规模数据处理而设计的快速通用计算引擎。如上图所示，它上面有Spark RDD与Spark SQL这些引擎可以使用。

Spark连接HBase的方式有两种，一种是通过HBaseClient直接访问HBase。第二种是Spark引入HBase Connector之后，通过Spark SQL/Spark RDD就可以直接操作这个数据。

2.流程概览

·准备Spark

下载安装Spark

·开发

1)配置开发环境

2)下载demo工程

3)开发Spark作业

·打包运行

1)打包项目

2)提交Spark作业

3. HadoopRDD – InputFormat

首先看HadoopRDD的方式，上方为一个样例的代码。

依赖HBase客户端，底层用TableInputFormat，底层Spark作业会自动把任务切分成Region的并发，然后对每个Region计算，然后获取最终结果。

4. Spark Connector - SparkSQL

第二种是用SparkSQL访问HBase。SparkSQL依赖Spark Hbase Connector，像这个代码里面会直接建一张Spark的表，表建好之后，就可以执行一些SQL去访问HBase的数据。

5. 直接使用HBase客户端读写数据

除了上述方式，也可以直接使用HBase客户端读写数据。

(二)在线分析HBase数据 - Hive

1. Hive + HBase 架构

Hive是一个基于Hadoop的数据仓库工具，用来对大规模数据进行处理。它也提供了SQL的查询功能，底层是将对应的SQL转换成MapReduce的任务来执行，所以它会依赖于关系型数据库作为MetaStore。

把整个架构搭起来之后，就可以通过SQL来执行HBase的数据分析。

2.准备工作

·安装Hadoop

1)下载安装Hadoop

2)设置环境变量

3)配置Hadoop

4)启动hdfs和yarn

5)验证

·安装MySQL

1)安装MySql

2)准备好Hive使用MySql用户和数据

·安装配置Hive

1)下载安装Hive

2)配置Hive

3)添加和替换hbase依赖

4)添加Hbase配置

5)验证

3.操作过程

1)建HBase外表:

CREATE EXTERNAL TABLE hbase_hive_table (key int, value string) STORED BY ‘org.apache.hadoop.hive. hbase.HBaseStorageHandler’ WITH SERDEPROPERTIES (“hbase.columns.mapping” = “:key,cf1:val”) TBLPROPERTIES (“hbase.table.name” = “hbase_hive_table”, “hbase.mapred.output.outputtable” = “hbase_hive_table”);

2)SQL查询:
select count(*) from hbase_hive_table ;

4.在线分析的弊端

弊端一:影响在线
占用HBase在线服务资源影响应用对HBase的正常访问。

弊端二:存储格式相对列存，HBase存储格式对分析不友好，分析性能差。弊端三:数据变化
分析过程中，数据一直在变化。

离线及流式分析

除了在线分析，还有另外两种方式，分别是离线以及流式分析。

(一)HBase数据离线处理分析

1.完整步骤

首先使用LTS (Lindorm Tunnel Service)将Hbase数据全量导出到HDFS，存储为Parquet格式，接着开发Spark作业分析导出的Parquet文件数据。

2. 全量导出到HDFS - Parquet格式

在HDFS页面上可以直接创建一个任务，然后从某一个集群把某一张表数据全量导出到一个目标的HDFS上面，格式默认为Parquet。

参考文档:https://help.aliyun.com/document_detail/156428.html#title-ofz-4ah-45z

3. 使用Spark分析Parquet文件

当数据导完后，下一步就是写一个Spark作业来分析这个Parquet文件，上方是一个样例的代码。

4. 离线分析的弊端

弊端一:实时性差

全量导出代价大，数据量越大数据产出越困难。

弊端二:存储冗余

数据在离线重复存储。

弊端三:重复导出

识别增量较难，历史数据重复导出。

(二)HBase数据流式处理分析

1.完整步骤

首先使用LTS增量订阅HBase 数据，写入到Kakfa，接着使用Spark Streaming对接Kafka，进行流式计算。

2. 导出到Kafka

同样，这里使用的也是阿里云的LTS产品。

LTS里有Lindorm Streams模块，它可以订阅某一张或者某些表的数据，然后写到对应的消息存储里面去。当这个任务建起来之后，HBase写入数据就会实时同步到Kafka里。底层实现原理是订阅HBase日志，同步延迟在秒级别。

3. 使用Spark对接Kafka进行实时计算

数据增量同步到Kafka之后，使用Spark对接Kafka进行实时计算。

总结

如上图所示，整个HBase的数据生态十分丰富，可以看到有很多开源产品，首先上游APP、日志、数据库等高并发写入到HBase之后，Spark、Flink等可以直接读取HBase数据做分析。同时它们的结果也可以批量写入/Bulkload到HBase。

然后通过同步工具，如LTS、Kettle等，可以把HBase的数据全量同步到离线分析系统。也可以通过增量订阅工具，如LTS、Replication，订阅到消息队列，下游再对接实时计算的产品，如Flink、Spark。

以上就是HBase的大致生态环境。

文章标签：

云消息队列 Kafka 版

云数据库HBase版

云原生大数据计算服务 MaxCompute

实时计算 Flink版

消息中间件

流计算

分布式计算

SQL

Hbase

Kafka

Spark

HIVE

存储

分布式数据库

关键词：

云原生大数据计算服务 MaxCompute分析

云原生大数据计算服务 MaxCompute实战

实战云原生大数据计算服务 MaxCompute

云数据库HBase版大数据

hbase云原生大数据计算服务 MaxCompute

xn3dxx4ljvk44

目录

相关文章

计算机程序设计Y2013070224

|

1月前

|

存储分布式计算大数据

基于Python大数据的的电商用户行为分析系统

本系统基于Django、Scrapy与Hadoop技术，构建电商用户行为分析平台。通过爬取与处理海量用户数据，实现行为追踪、偏好分析与个性化推荐，助力企业提升营销精准度与用户体验，推动电商智能化发展。

计算机程序设计Y2013070224

250 4 4

计算机程序设计Y2013070224

|

2月前

|

数据可视化搜索推荐大数据

基于python大数据的北京旅游可视化及分析系统

本文深入探讨智慧旅游系统的背景、意义及研究现状，分析其在旅游业中的作用与发展潜力，介绍平台架构、技术创新、数据挖掘与服务优化等核心内容，并展示系统实现界面。

计算机程序设计Y2013070224

207 3 3

瓴羊Dataphin

|

2月前

|

存储 SQL 分布式计算

终于！大数据分析不用再“又要快又要省钱”二选一了！Dataphin新功能太香了！

Dataphin推出查询加速新功能，支持用StarRocks等引擎直连MaxCompute或Hadoop查原始数据，无需同步、秒级响应。数据只存一份，省成本、提效率，权限统一管理，打破“又要快又要省”的不可能三角，助力企业实现分析自由。

瓴羊Dataphin

222 49 49

计算机程序设计Y2013070224

|

1月前

|

机器学习/深度学习大数据关系型数据库

基于python大数据的台风灾害分析及预测系统

针对台风灾害预警滞后、精度不足等问题，本研究基于Python与大数据技术，构建多源数据融合的台风预测系统。利用机器学习提升路径与强度预测准确率，结合Django框架实现动态可视化与实时预警，为防灾决策提供科学支持，显著提高应急响应效率，具有重要社会经济价值。

计算机程序设计Y2013070224

279 4 4

计算机程序设计Y2013070224

|

1月前

|

机器学习/深度学习大数据关系型数据库

基于python大数据的青少年网络使用情况分析及预测系统

本研究基于Python大数据技术，构建青少年网络行为分析系统，旨在破解现有防沉迷模式下用户画像模糊、预警滞后等难题。通过整合多平台亿级数据，运用机器学习实现精准行为预测与实时干预，推动数字治理向“数据驱动”转型，为家庭、学校及政府提供科学决策支持，助力青少年健康上网。

计算机程序设计Y2013070224

223 2 2

游客hp4x2qkhydglu

|

1月前

|

传感器人工智能监控

拔俗多模态跨尺度大数据AI分析平台：让复杂数据“开口说话”的智能引擎

在数字化时代，多模态跨尺度大数据AI分析平台应运而生，打破数据孤岛，融合图像、文本、视频等多源信息，贯通微观与宏观尺度，实现智能诊断、预测与决策，广泛应用于医疗、制造、金融等领域，推动AI从“看懂”到“会思考”的跃迁。

游客hp4x2qkhydglu

228 0 0

计算机程序设计Y2013070224

|

2月前

|

数据采集数据可视化关系型数据库

基于python大数据的电影数据可视化分析系统

电影分析与可视化平台顺应电影产业数字化趋势，整合大数据处理、人工智能与Web技术，实现电影数据的采集、分析与可视化展示。平台支持票房、评分、观众行为等多维度分析，助力行业洞察与决策，同时提供互动界面，增强观众对电影文化的理解。技术上依托Python、MySQL、Flask、HTML等构建，融合数据采集与AI分析，提升电影行业的数据应用能力。

计算机程序设计Y2013070224

224 10 10

计算机程序设计Y2013070224

|

2月前

|

数据可视化大数据数据挖掘

基于python大数据的招聘数据可视化分析系统

本系统基于Python开发，整合多渠道招聘数据，利用数据分析与可视化技术，助力企业高效决策。核心功能包括数据采集、智能分析、可视化展示及权限管理，提升招聘效率与人才管理水平，推动人力资源管理数字化转型。

计算机程序设计Y2013070224

244 0 0

计算机程序设计Y2013070224

|

2月前

|

机器学习/深度学习搜索推荐算法

基于python大数据的口红商品分析与推荐系统

本研究基于Python大数据技术，构建口红商品分析与推荐系统，旨在解决口红市场产品同质化与消费者选择困难问题。通过分析颜色、质地、价格等多维度数据及用户行为，实现个性化推荐，提升购物体验与品牌营销效率，推动美妆行业数字化转型，具有重要现实意义与市场价值。

计算机程序设计Y2013070224

84 0 0

数据库

热门文章

最新文章

ETCD系列之一：简介

德哥的PostgreSQL私房菜 - 史上最屌PG资料合集

redis4.0、codis、阿里云redis 3种redis集群对比分析

NoSQL最新现状和趋势：云NoSQL数据库将成重要增长引擎

什么场景应该用 MongoDB ？

PostgreSQL 如何实现批量更新、删除、插入

MongoDB Sharded cluster架构原理

Redis Stream——作为消息队列的典型应用场景

MongoDB 生态 - 可视化管理工具

在Docker上玩转PostgreSQL -- Mac篇

【Java架构师体系课 | MySQL篇】⑦ 深入理解MySQL事务隔离级别与锁机制

《音韵通律》：基于十进制逻辑的语音读写系统构建研究

内附原文｜VLDB论文精读：AI进行时，数据分析迈入增量计算时代

Windows实用小工具使用教程！OFGB专治 Windows 11 广告的神器+自动滚屏小工具！

告别碎片化运维！阿里云 DAS Agent 助力10万+用户迈入多云数据库 AI-Native 运维时代

基于 PolarDB 打造企业专属智能问答应用，完成任务可赢取保温杯、加湿器等好礼！

阿里云「RDS AI 助手」正式上线：大模型驱动的数据库智能运维 Copilot

StarRocks 性能实测：在 Coffee-shop Benchmark 中快 10 倍！

为什么实时更新场景下 Doris 查询性能是 ClickHouse 的 34 倍

Apache Doris 登顶 RTABench —— 实时分析领域的性能王者

相关课程

更多

大数据Spark2020最新课程（知识精讲与实战演练）第二阶段

大数据Spark2020版（知识精讲与实战演练）第三阶段

大数据Spark2020版（知识精讲与实战演练）第四阶段

2020版大数据实战项目之DMP广告系统（第二阶段）

2020版大数据实战项目之DMP广告系统（第三阶段）

2020版大数据实战项目之DMP广告系统（第四阶段）

相关电子书

更多

MaxCompute Serverless 架构演进

Data+AI时代大数据平台应该如何建设

大数据AI一体化的解读

下一篇

阿里云负载均衡收费标准：ALB、NLB和CLB价格，包括LCU费用、实例费和公网带宽价格