对于一般大数据物流项目的面试题(问题+答案)-阿里云开发者社区

对于一般大数据物流项目的面试题(问题+答案)

2023-12-25 415

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 对于一般大数据物流项目的面试题(问题+答案)

1、数据采集如何完成

OGG 不要涉及，Oracle DBA完成

Canal数据采集，一定知道高可用HA集群模式

2、数据量大小

Kafka topic 数据存储生命周期（多久）

7天

Kafka Topic 个数及分区数和副本

Kakfa 分区数

分区数并不是越多越好，一般分区数不要超过集群机器数量。分区数越多占用内存越大（ISR 等），一个节点集中的分区也就越多，当它宕机的时候，对系统的影响也就越大。

分区数一般设置为：3-10 个

副本数设定

一般我们设置成 2 个或 3 个，很多企业设置为 2 个。

多少个 Topic

通常情况：多少个日志类型就多少个 Topic。也有对日志类型进行合并的。

Kafka 集群规模及机器配置

Kafka 机器数量=2*（峰值生产速度*副本数/100）+1

3、实时增量ETL程序开发，为什么选择使用StructuredStreaming？？

从Spark-2.X版本后，Spark streaming就进入维护模式，Spark streaming是低阶API，给码农用的，各种坑；Structured streaming是给人设计的API，简单易用。由于太忙，所以一直没有在官方文档上更新说明信息

4、消费Kafka数据几种方式及区别，如何保存偏移量？

SparkStreaming Checkpoint或自己管理

StructuredStreaming 使用Checkpoint管理

5、为什么使用Kudu存储，不使用HBase？？

数据库【数据上的快速分析】

当数据量级起来以后，会发现数据库吃不消了或者成本开销太大了，此时就需要把数据从事务型数据库里拷贝出来或者说剥离出来，装入一个分析型的数据库（OLAP）里。发现对于实时性和变更性的需求，目前只有 Kudu 一种组件能够满足需求

两者区别？？

Kudu中数据读写流程

Kudu如何存储数据，每个表分区策略？？？

Kudu使用注意事项:

Kudu集群对时间同步极其严格

6、DataFrame与Dataset、RDD区别

RDD叫做弹性分布式数据集

与RDD类似，DataFrame是一个分布式数据容器，但是DataFrame不是类型安全的。

DataSet是DataFrame API的一个扩展，是Spark最新的数据抽象，结合了RDD和DataFrame的优点

RDD 特性有哪些？？你是如何理解RDD的？？？

RDD是分布式弹性数据集,

为什么Spark计算比较快，与MapReduce相比较优势是什么？？

基于内存计算

SparkSQL中优化有哪些？？？使用常见函数有哪些？？？

能介绍下你所知道和使用过的Spark调优吗?

资源参数调优

num-executors：设置Spark作业总共要用多少个Executor进程来执行
executor-memory：设置每个Executor进程的内存
executor-cores：设置每个Executor进程的CPU core数量
driver-memory：设置Driver进程的内存
spark.default.parallelism：设置每个stage的默认task数量
…

开发调优

避免创建重复的RDD
尽可能复用同一个RDD
对多次使用的RDD进行持久化
尽量避免使用shuffle类算子
使用map-side预聚合的shuffle操作
使用高性能的算子

①使用reduceByKey/aggregateByKey替代groupByKey

②使用mapPartitions替代普通map

③使用foreachPartitions替代foreach

④使用filter之后进行coalesce操作

⑤使用repartitionAndSortWithinPartitions替代repartition与sort类操作

广播大变量

在算子函数中使用到外部变量时，默认情况下，Spark会将该变量复制多个副本，通过网络传输到task中，此时每个task都有一个变量副本。如果变量本身比较大的话（比如100M，甚至1G），那么大量的变量副本在网络中传输的性能开销，以及在各个节点的Executor中占用过多内存导致的频繁GC(垃圾回收)，都会极大地影响性能。

使用Kryo优化序列化性能
优化数据结构

在可能以及合适的情况下，使用占用内存较少的数据结构，但是前提是要保证代码的可维护性。

7、Impala 分析引擎

Impala架构，实现目的，目前架构如何

Hue与Impala集成

8、离线数仓

数仓分层如何划分呢？？？为什么要划分？？为什么要如此设计？？？

ODS DWD层 DWS层经过数据清洗后的数据无需中间层预聚合因此直接到DWS层

雪花模型和星型模型区别是什么？？？？

雪花模型和星型模型区别在于是否围绕事实表,星型模型是一个事实表为中心，多个维度表环绕周围,雪花模型是它的延伸

9、ClickHouse 为什么选择，有哪些优势？？

查询速度超快

适合业务场景

10、SparkSQL外部数据源实现（难点）

Kudu +ES +Ck

12、业务线：你完成什么，你做了什么，你遇到什么问题，你是如何解决的？？？？

离线数仓采用的的技术是kudu+SparkSql离线计算，使用azkaban进行定时调度；也使用了kudu和

impala进行即席查询,数仓分为三层，第一层： ODS 层，原始数据存储层、第二层： DWD 层，数据仓库明细层、第三层： DWS

层，数据服务层。每个主题报表开发，分为三层管理数据，其中DWD层和DWS层需要编写SparkSQL程序，业务处理： DWD层程序开发：

从Kudu表加载ODS层事实表数据和维度表数据，按照关联字段，进行拉宽操作，最后存储到 Kudu表技术： Kudu -> SparkSQL

-> Kudu DWS层程序开发：从Kudu表加载DWD层宽表数据，按照指标需要进行计算，最终存储到Kudu表中，以便使用技术： Kudu -> SparkSQL -> Kudu

对整个物流离线数仓共分为5个主题开发：主题：快递单主题、运单主题、仓库主题、车辆主题、用户主题

快递单主题：快递单数：总快递单数最大/最小/平均快递单数：

这三个指标分别从各类客户、各渠道、各网点、各终端，4个维度分析事实表：快递单表

维度表：客户表、快递员表、包裹表、网点表、公司网点关联表、公司表、区域表、客户地址关联表、客户地址表、字典表

对于一般大数据物流项目的面试题(问题+答案)

1、数据采集如何完成

2、数据量大小

3、实时增量ETL程序开发，为什么选择使用StructuredStreaming？？

4、消费Kafka数据几种方式及区别，如何保存偏移量？

5、为什么使用Kudu存储，不使用HBase？？

6、DataFrame与Dataset、RDD区别

资源参数调优

开发调优

7、Impala 分析引擎

8、离线数仓

9、ClickHouse 为什么选择，有哪些优势？？

10、SparkSQL外部数据源实现（难点）

12、业务线：你完成什么，你做了什么，你遇到什么问题，你是如何解决的？？？？

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

对于一般大数据物流项目的面试题(问题+答案)

1、数据采集如何完成

2、数据量大小

3、实时增量ETL程序开发，为什么选择使用StructuredStreaming？？

4、消费Kafka数据几种方式及区别，如何保存偏移量？

5、为什么使用Kudu存储，不使用HBase？？

6、DataFrame与Dataset、RDD区别

资源参数调优

开发调优

7、Impala 分析引擎

8、离线数仓

9、ClickHouse 为什么选择，有哪些优势？？

10、SparkSQL外部数据源实现（难点）

12、业务线：你完成什么，你做了什么，你遇到什么问题，你是如何解决的？？？？

热门文章

最新文章

相关课程

相关电子书