对于一般大数据物流项目的面试题(问题+答案)-阿里云开发者社区

对于一般大数据物流项目的面试题(问题+答案)

2023-12-25 102

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

云原生数据仓库AnalyticDB MySQL版，基础版 8ACU 100GB 1个月

简介： 对于一般大数据物流项目的面试题(问题+答案)

1、数据采集如何完成

OGG 不要涉及，Oracle DBA完成

Canal数据采集，一定知道高可用HA集群模式

2、数据量大小

Kafka topic 数据存储生命周期（多久）

7天

Kafka Topic 个数及分区数和副本

Kakfa 分区数

分区数并不是越多越好，一般分区数不要超过集群机器数量。分区数越多占用内存越大（ISR 等），一个节点集中的分区也就越多，当它宕机的时候，对系统的影响也就越大。

分区数一般设置为：3-10 个

副本数设定

一般我们设置成 2 个或 3 个，很多企业设置为 2 个。

多少个 Topic

通常情况：多少个日志类型就多少个 Topic。也有对日志类型进行合并的。

Kafka 集群规模及机器配置

Kafka 机器数量=2*（峰值生产速度*副本数/100）+1

3、实时增量ETL程序开发，为什么选择使用StructuredStreaming？？

从Spark-2.X版本后，Spark streaming就进入维护模式，Spark streaming是低阶API，给码农用的，各种坑；Structured streaming是给人设计的API，简单易用。由于太忙，所以一直没有在官方文档上更新说明信息

4、消费Kafka数据几种方式及区别，如何保存偏移量？

SparkStreaming Checkpoint或自己管理

StructuredStreaming 使用Checkpoint管理

5、为什么使用Kudu存储，不使用HBase？？

数据库【数据上的快速分析】

当数据量级起来以后，会发现数据库吃不消了或者成本开销太大了，此时就需要把数据从事务型数据库里拷贝出来或者说剥离出来，装入一个分析型的数据库（OLAP）里。发现对于实时性和变更性的需求，目前只有 Kudu 一种组件能够满足需求

两者区别？？

Kudu中数据读写流程

Kudu如何存储数据，每个表分区策略？？？

Kudu使用注意事项:

Kudu集群对时间同步极其严格

6、DataFrame与Dataset、RDD区别

RDD叫做弹性分布式数据集

与RDD类似，DataFrame是一个分布式数据容器，但是DataFrame不是类型安全的。

DataSet是DataFrame API的一个扩展，是Spark最新的数据抽象，结合了RDD和DataFrame的优点

RDD 特性有哪些？？你是如何理解RDD的？？？

RDD是分布式弹性数据集,

为什么Spark计算比较快，与MapReduce相比较优势是什么？？

基于内存计算

SparkSQL中优化有哪些？？？使用常见函数有哪些？？？

能介绍下你所知道和使用过的Spark调优吗?

资源参数调优

num-executors：设置Spark作业总共要用多少个Executor进程来执行
executor-memory：设置每个Executor进程的内存
executor-cores：设置每个Executor进程的CPU core数量
driver-memory：设置Driver进程的内存
spark.default.parallelism：设置每个stage的默认task数量
…

开发调优

避免创建重复的RDD
尽可能复用同一个RDD
对多次使用的RDD进行持久化
尽量避免使用shuffle类算子
使用map-side预聚合的shuffle操作
使用高性能的算子

①使用reduceByKey/aggregateByKey替代groupByKey

②使用mapPartitions替代普通map

③使用foreachPartitions替代foreach

④使用filter之后进行coalesce操作

⑤使用repartitionAndSortWithinPartitions替代repartition与sort类操作

广播大变量

在算子函数中使用到外部变量时，默认情况下，Spark会将该变量复制多个副本，通过网络传输到task中，此时每个task都有一个变量副本。如果变量本身比较大的话（比如100M，甚至1G），那么大量的变量副本在网络中传输的性能开销，以及在各个节点的Executor中占用过多内存导致的频繁GC(垃圾回收)，都会极大地影响性能。

使用Kryo优化序列化性能
优化数据结构

在可能以及合适的情况下，使用占用内存较少的数据结构，但是前提是要保证代码的可维护性。

7、Impala 分析引擎

Impala架构，实现目的，目前架构如何

Hue与Impala集成

8、离线数仓

数仓分层如何划分呢？？？为什么要划分？？为什么要如此设计？？？

ODS DWD层 DWS层经过数据清洗后的数据无需中间层预聚合因此直接到DWS层

雪花模型和星型模型区别是什么？？？？

雪花模型和星型模型区别在于是否围绕事实表,星型模型是一个事实表为中心，多个维度表环绕周围,雪花模型是它的延伸

9、ClickHouse 为什么选择，有哪些优势？？

查询速度超快

适合业务场景

10、SparkSQL外部数据源实现（难点）

Kudu +ES +Ck

12、业务线：你完成什么，你做了什么，你遇到什么问题，你是如何解决的？？？？

离线数仓采用的的技术是kudu+SparkSql离线计算，使用azkaban进行定时调度；也使用了kudu和

impala进行即席查询,数仓分为三层，第一层： ODS 层，原始数据存储层、第二层： DWD 层，数据仓库明细层、第三层： DWS

层，数据服务层。每个主题报表开发，分为三层管理数据，其中DWD层和DWS层需要编写SparkSQL程序，业务处理： DWD层程序开发：

从Kudu表加载ODS层事实表数据和维度表数据，按照关联字段，进行拉宽操作，最后存储到 Kudu表技术： Kudu -> SparkSQL

-> Kudu DWS层程序开发：从Kudu表加载DWD层宽表数据，按照指标需要进行计算，最终存储到Kudu表中，以便使用技术： Kudu -> SparkSQL -> Kudu

对整个物流离线数仓共分为5个主题开发：主题：快递单主题、运单主题、仓库主题、车辆主题、用户主题

快递单主题：快递单数：总快递单数最大/最小/平均快递单数：

这三个指标分别从各类客户、各渠道、各网点、各终端，4个维度分析事实表：快递单表

维度表：客户表、快递员表、包裹表、网点表、公司网点关联表、公司表、区域表、客户地址关联表、客户地址表、字典表

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps