基于Flume+Kafka+Hbase+Flink+FineBI的实时综合案例(一)案例需求

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 基于Flume+Kafka+Hbase+Flink+FineBI的实时综合案例(一)案例需求

Flume+Kafka+Hbase+Flink+FineBI的实时综合案例

01:课程回顾

  1. Hbase如何解决非索引查询速度慢的问题?
  • 原因:Hbase以Rowkey作为唯一索引
  • 现象:只要查询条件不是Rowkey前缀,不走索引
  • 解决:构建二级索引
  • 思想:自己建rowkey索引表,通过走两次索引来代替全表扫描
  • 步骤
  • step1:根据自己查询条件找到符合条件的原表的rowkey
  • step2:根据原表rowkey去原表检索
  • 问题:不同查询条件需要不同索引表,维护原表数据与索引数据同步问题
  • 解决
  • 方案一:手动管理:自己建表、自己写入数据【原表、索引表】
  • 方案二:自己开发协处理器:协处理器的开发成本非常高
  • 方案三:第三方工具:Phoenix
create [local] index indexName on tbname(Col) [include(col)]
  • a.自动构建索引表/列族
  • b.自动对原表中的数据构建索引,自动把索引数据同步到索引表
  • c.自动维护中间所有过程
  1. Phoenix支持哪几种索引,各自的区别和实现原理是什么?
  • 索引设计:加快查询的效率
  • 全局索引
create index 
  • 索引表来实现
  • rowkey:查询条件+原表rowkey
  • col:x【占位】
  • 过程:先查询索引表,从索引中查找满足条件的rowkey,再拿rowkey到原表查询结果
  • 场景:写少读多
  • 实现:先拦截写原表的请求,先写索引表,再去写原表
  • 问题:查询的数据都在原表中,必须到原表拿数据,性能相对比较差
  • 覆盖索引:基于全局索引
create index …… include
  • 索引表来实现
  • rowkey:查询条件+原表rowkey
  • col:x【占位】
  • col……:经常作为查询结果要返回的列
  • 过程:根据查询条件,直接从索引表返回,不再查询原表
  • 场景:写少读多
  • 实现:先拦截写原表的请求,先写索引表,再去写原表
  • 问题:写的性能受到了较大影响
  • 本地索引
create local index 
  • 将索引与数据存储在原表中,索引用一个单独的列族来存储
  • rowkey:这条数据所在Region的StartKey + 查询条件 + 数据的rowey
  • 过程:必须加载全部索引来进行索引查询,牺牲了一定读的性能
  • 场景:写多读多
  • 实现:在写入数据时,直接通过协处理器将数据和数据的索引写入原表的同一个region中
  • 特点:数据侵入性比较高,所有读写都基于Phoenix进行读写,盐表不能使用本地索引
  • 函数索引:一般不用

02:课程目标

  • 目标
  • 每种存储对应的应用场景:MySQL、HDFS、HIve、Redis、Hbase、Kafka
  • 如何实现不同存储设计和开发
  • Hbase设计 + Hbase Java API
  • Kafka API
  • 架构
  • 实时采集:Flume + Kafka
  • 实时存储:Kafka
  • 离线存储:Hbase
  • 离线计算:Hive 、Phoenix
  • 实时计算:Flink
  • 实时报表:FineBI
  • 要求
  • 所有环节自己实现一遍
  • 自己设计,自己写代码

03:案例需求

  • 目标:了解案例的背景及需求
  • 路径
  • step1:案例背景
  • step2:整体目标
  • step3:具体需求
  • 实施
  • 案例背景
社交软件每天都有数千万的用户进行聊天, 陌陌、微信、脸书等公司想要对这些用户的聊天记录进行存储,满足用户的所有查询浏览以及后台需要对每天的消息量进行实时统计分析, 请设计如何实现数据的存储以及实时的数据统计分析工作。
  • 整体目标
  • 选择合理的存储容器进行数据存储, 并让其支持即席查询与离线分析工作
  • 具体需求
  • 离线分析:满足离线统计分析与即时查询
  • 根据发件人id + 收件人id + 消息日期 查询聊天记录
  • |
  • Rowkey设计
  • 实时分析
  • 实时统计消息总量
  • 实时统计各个地区发送消息的总量
  • 实时统计各个地区接收消息的总量
  • 实时统计每个用户发送消息的总量
  • 实时统计每个用户接收消息的总量
  • |
  • 指标:消息总个数
  • 维度:时间 、地区、用户、消息类型
  • 小结
  • 了解案例的背景及需求


目录
相关文章
|
1月前
|
消息中间件 关系型数据库 MySQL
基于 Flink CDC YAML 的 MySQL 到 Kafka 流式数据集成
基于 Flink CDC YAML 的 MySQL 到 Kafka 流式数据集成
194 0
|
2月前
|
消息中间件 关系型数据库 MySQL
基于 Flink CDC YAML 的 MySQL 到 Kafka 流式数据集成
本教程展示如何使用Flink CDC YAML快速构建从MySQL到Kafka的流式数据集成作业,涵盖整库同步和表结构变更同步。无需编写Java/Scala代码或安装IDE,所有操作在Flink CDC CLI中完成。首先准备Flink Standalone集群和Docker环境(包括MySQL、Kafka和Zookeeper),然后通过配置YAML文件提交任务,实现数据同步。教程还介绍了路由变更、写入多个分区、输出格式设置及上游表名到下游Topic的映射等功能,并提供详细的命令和示例。最后,包含环境清理步骤以确保资源释放。
352 2
基于 Flink CDC YAML 的 MySQL 到 Kafka 流式数据集成
|
2月前
|
消息中间件 Kafka 流计算
docker环境安装kafka/Flink/clickhouse镜像
通过上述步骤和示例,您可以系统地了解如何使用Docker Compose安装和配置Kafka、Flink和ClickHouse,并进行基本的验证操作。希望这些内容对您的学习和工作有所帮助。
277 28
|
6月前
|
消息中间件 关系型数据库 MySQL
大数据-117 - Flink DataStream Sink 案例:写出到MySQL、写出到Kafka
大数据-117 - Flink DataStream Sink 案例:写出到MySQL、写出到Kafka
490 0
|
6月前
|
SQL 分布式计算 Hadoop
Hadoop-19 Flume Agent批量采集数据到HDFS集群 监听Hive的日志 操作则把记录写入到HDFS 方便后续分析
Hadoop-19 Flume Agent批量采集数据到HDFS集群 监听Hive的日志 操作则把记录写入到HDFS 方便后续分析
102 2
|
6月前
|
存储 数据采集 分布式计算
Hadoop-17 Flume 介绍与环境配置 实机云服务器测试 分布式日志信息收集 海量数据 实时采集引擎 Source Channel Sink 串行复制负载均衡
Hadoop-17 Flume 介绍与环境配置 实机云服务器测试 分布式日志信息收集 海量数据 实时采集引擎 Source Channel Sink 串行复制负载均衡
104 1
|
8月前
|
存储 分布式计算 大数据
【Flume的大数据之旅】探索Flume如何成为大数据分析的得力助手,从日志收集到实时处理一网打尽!
【8月更文挑战第24天】Apache Flume是一款高效可靠的数据收集系统,专为Hadoop环境设计。它能在数据产生端与分析/存储端间搭建桥梁,适用于日志收集、数据集成、实时处理及数据备份等多种场景。通过监控不同来源的日志文件并将数据标准化后传输至Hadoop等平台,Flume支持了性能监控、数据分析等多种需求。此外,它还能与Apache Storm或Flink等实时处理框架集成,实现数据的即时分析。下面展示了一个简单的Flume配置示例,说明如何将日志数据导入HDFS进行存储。总之,Flume凭借其灵活性和强大的集成能力,在大数据处理流程中占据了重要地位。
166 3
|
8月前
|
存储 数据采集 数据处理
【Flume拓扑揭秘】掌握Flume的四大常用结构,构建强大的日志收集系统!
【8月更文挑战第24天】Apache Flume是一个强大的工具,专为大规模日志数据的收集、聚合及传输设计。其核心架构包括源(Source)、通道(Channel)与接收器(Sink)。Flume支持多样化的拓扑结构以适应不同需求,包括单层、扇入(Fan-in)、扇出(Fan-out)及复杂多层拓扑。单层拓扑简单直观,适用于单一数据流场景;扇入结构集中处理多源头数据;扇出结构则实现数据多目的地分发;复杂多层拓扑提供高度灵活性,适合多层次数据处理。通过灵活配置,Flume能够高效构建各种规模的数据收集系统。
170 0
|
11月前
|
存储 运维 监控
【Flume】flume 日志管理中的应用
【4月更文挑战第4天】【Flume】flume 日志管理中的应用
|
11月前
|
存储 分布式计算 监控
【Flume】Flume 监听日志文件案例分析
【4月更文挑战第4天】【Flume】Flume 监听日志文件案例分析