1、数据采集如何完成
OGG 不要涉及,Oracle DBA完成
Canal数据采集,一定知道高可用HA集群模式
2、数据量大小
Kafka topic 数据存储生命周期(多久)
7天
Kafka Topic 个数及分区数和副本
Kakfa 分区数
分区数并不是越多越好,一般分区数不要超过集群机器数量。分区数越多占用内存越大(ISR 等),一个节点集中的分区也就越多,当它宕机的时候,对系统的影响也就越大。
分区数一般设置为:3-10 个
副本数设定
一般我们设置成 2 个或 3 个,很多企业设置为 2 个。
多少个 Topic
通常情况:多少个日志类型就多少个 Topic。也有对日志类型进行合并的。
Kafka 集群规模及机器配置
Kafka 机器数量=2*(峰值生产速度*副本数/100)+1
3、实时增量ETL程序开发,为什么选择使用StructuredStreaming??
从Spark-2.X版本后,Spark streaming就进入维护模式,Spark streaming是低阶API,给码农用的,各种坑;Structured streaming是给人设计的API,简单易用。由于太忙,所以一直没有在官方文档上 更新说明信息
4、消费Kafka数据几种方式及区别,如何保存偏移量?
SparkStreaming Checkpoint或自己管理
StructuredStreaming 使用Checkpoint管理
5、为什么使用Kudu存储,不使用HBase??
数据库【数据上的快速分析】
当数据量级起来以后,会发现数据库吃不消了或者成本开销太大了,此时就需要把数据从事务型数据库里拷贝出来或者说剥离出来,装入一个分析型的数据库(OLAP)里。发现对于实时性和变更性的需求, 目前只有 Kudu 一种组件能够满足需求
两者区别??
Kudu中数据读写流程
Kudu如何存储数据,每个表分区策略???
Kudu使用注意事项:
Kudu集群对时间同步极其严格
6、DataFrame与Dataset、RDD区别
RDD叫做弹性分布式数据集
与RDD类似,DataFrame是一个分布式数据容器,但是DataFrame不是类型安全的。
DataSet是DataFrame API的一个扩展,是Spark最新的数据抽象,结合了RDD和DataFrame的优点
RDD 特性有哪些??你是如何理解RDD的???
RDD是分布式弹性数据集,
为什么Spark计算比较快,与MapReduce相比较优势是什么??
基于内存计算
SparkSQL中优化有哪些???使用常见函数有哪些???
能介绍下你所知道和使用过的Spark调优吗?
资源参数调优
- num-executors:设置Spark作业总共要用多少个Executor进程来执行
- executor-memory:设置每个Executor进程的内存
- executor-cores:设置每个Executor进程的CPU core数量
- driver-memory:设置Driver进程的内存
- spark.default.parallelism:设置每个stage的默认task数量
- …
开发调优
- 避免创建重复的RDD
- 尽可能复用同一个RDD
- 对多次使用的RDD进行持久化
- 尽量避免使用shuffle类算子
- 使用map-side预聚合的shuffle操作
- 使用高性能的算子
①使用reduceByKey/aggregateByKey替代groupByKey
②使用mapPartitions替代普通map
③使用foreachPartitions替代foreach
④使用filter之后进行coalesce操作
⑤使用repartitionAndSortWithinPartitions替代repartition与sort类操作
- 广播大变量
在算子函数中使用到外部变量时,默认情况下,Spark会将该变量复制多个副本,通过网络传输到task中,此时每个task都有一个变量副本。如果变量本身比较大的话(比如100M,甚至1G),那么大量的变量副本在网络中传输的性能开销,以及在各个节点的Executor中占用过多内存导致的频繁GC(垃圾回收),都会极大地影响性能。
- 使用Kryo优化序列化性能
- 优化数据结构
在可能以及合适的情况下,使用占用内存较少的数据结构,但是前提是要保证代码的可维护性。
7、Impala 分析引擎
Impala架构,实现目的,目前架构如何
Hue与Impala集成
8、离线数仓
数仓分层如何划分呢???为什么要划分??为什么要如此设计???
ODS DWD层 DWS层 经过数据清洗后的数据无需中间层预聚合因此直接到DWS层
雪花模型和星型模型区别是什么????
雪花模型和星型模型区别在于是否围绕事实表,星型模型是一个事实表为中心,多个维度表环绕周围,雪花模型是它的延伸
9、ClickHouse 为什么选择,有哪些优势??
查询速度超快
适合业务场景
10、SparkSQL外部数据源实现(难点)
Kudu +ES +Ck
12、业务线:你完成什么,你做了什么,你遇到什么问题,你是如何解决的????
离线数仓采用的的技术是kudu+SparkSql离线计算,使用azkaban进行定时调度;也使用了kudu和
impala进行即席查询,数仓分为三层,第一层: ODS 层,原始数据存储层、第二层: DWD 层,数据仓库明细层、第三层: DWS
层,数据服务层。 每个主题报表开发,分为三层管理数据,其中DWD层和DWS层需要编写SparkSQL程序,业务处理: DWD层程序开发:
从Kudu表加载ODS层事实表数据和维度表数据,按照关联字段,进行拉宽操作,最后存储到 Kudu表 技术: Kudu -> SparkSQL
-> Kudu DWS层程序开发: 从Kudu表加载DWD层宽表数据,按照指标需要进行计算,最终存储到Kudu表中,以便使用 技术: Kudu -> SparkSQL -> Kudu
对整个物流离线数仓共分为5个主题开发: 主题:快递单主题、运单主题、仓库主题、车辆主题、用户主题
快递单主题: 快递单数:总快递单数 最大/最小/平均快递单数:
这三个指标分别从各类客户、各渠道、各网点、各终端,4个维度分析事实表:快递单表
维度表:客户表、快递员表、包裹表、网点表、公司网点关联表、公司表、区域表、客户地址关联 表、客户地址表、字典表