对于一般大数据物流项目的面试题(问题+答案)

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 对于一般大数据物流项目的面试题(问题+答案)

1、数据采集如何完成

OGG 不要涉及,Oracle DBA完成

Canal数据采集,一定知道高可用HA集群模式

2、数据量大小

Kafka topic 数据存储生命周期(多久)

7天

Kafka Topic 个数及分区数和副本

Kakfa 分区数

分区数并不是越多越好,一般分区数不要超过集群机器数量。分区数越多占用内存越大(ISR 等),一个节点集中的分区也就越多,当它宕机的时候,对系统的影响也就越大。

分区数一般设置为:3-10 个

副本数设定

一般我们设置成 2 个或 3 个,很多企业设置为 2 个。

多少个 Topic

通常情况:多少个日志类型就多少个 Topic。也有对日志类型进行合并的。

Kafka 集群规模及机器配置

Kafka 机器数量=2*(峰值生产速度*副本数/100)+1

3、实时增量ETL程序开发,为什么选择使用StructuredStreaming??

Spark-2.X版本后,Spark streaming就进入维护模式,Spark streaming是低阶API,给码农用的,各种坑;Structured streaming是给人设计的API,简单易用。由于太忙,所以一直没有在官方文档上 更新说明信息

4、消费Kafka数据几种方式及区别,如何保存偏移量?

SparkStreaming Checkpoint或自己管理

StructuredStreaming 使用Checkpoint管理

5、为什么使用Kudu存储,不使用HBase??

数据库【数据上的快速分析】

当数据量级起来以后,会发现数据库吃不消了或者成本开销太大了,此时就需要把数据从事务型数据库里拷贝出来或者说剥离出来,装入一个分析型的数据库(OLAP)里。发现对于实时性和变更性的需求, 目前只有 Kudu 一种组件能够满足需求

两者区别??

Kudu中数据读写流程

Kudu如何存储数据,每个表分区策略???

Kudu使用注意事项:

Kudu集群对时间同步极其严格

6、DataFrame与Dataset、RDD区别

RDD叫做弹性分布式数据集

与RDD类似,DataFrame是一个分布式数据容器,但是DataFrame不是类型安全的。

DataSet是DataFrame API的一个扩展,是Spark最新的数据抽象,结合了RDD和DataFrame的优点

RDD 特性有哪些??你是如何理解RDD的???

RDD是分布式弹性数据集,

为什么Spark计算比较快,与MapReduce相比较优势是什么??

基于内存计算

SparkSQL中优化有哪些???使用常见函数有哪些???

能介绍下你所知道和使用过的Spark调优吗?

资源参数调优

  • num-executors:设置Spark作业总共要用多少个Executor进程来执行
  • executor-memory:设置每个Executor进程的内存
  • executor-cores:设置每个Executor进程的CPU core数量
  • driver-memory:设置Driver进程的内存
  • spark.default.parallelism:设置每个stage的默认task数量

开发调优

  1. 避免创建重复的RDD
  2. 尽可能复用同一个RDD
  3. 对多次使用的RDD进行持久化
  4. 尽量避免使用shuffle类算子
  5. 使用map-side预聚合的shuffle操作
  6. 使用高性能的算子

①使用reduceByKey/aggregateByKey替代groupByKey

②使用mapPartitions替代普通map

③使用foreachPartitions替代foreach

④使用filter之后进行coalesce操作

⑤使用repartitionAndSortWithinPartitions替代repartition与sort类操作

  1. 广播大变量

在算子函数中使用到外部变量时,默认情况下,Spark会将该变量复制多个副本,通过网络传输到task中,此时每个task都有一个变量副本。如果变量本身比较大的话(比如100M,甚至1G),那么大量的变量副本在网络中传输的性能开销,以及在各个节点的Executor中占用过多内存导致的频繁GC(垃圾回收),都会极大地影响性能。

  1. 使用Kryo优化序列化性能
  2. 优化数据结构

在可能以及合适的情况下,使用占用内存较少的数据结构,但是前提是要保证代码的可维护性。

7、Impala 分析引擎

Impala架构,实现目的,目前架构如何

Hue与Impala集成

8、离线数仓

数仓分层如何划分呢???为什么要划分??为什么要如此设计???

ODS DWD层 DWS层 经过数据清洗后的数据无需中间层预聚合因此直接到DWS层

雪花模型和星型模型区别是什么????

雪花模型和星型模型区别在于是否围绕事实表,星型模型是一个事实表为中心,多个维度表环绕周围,雪花模型是它的延伸

9、ClickHouse 为什么选择,有哪些优势??

查询速度超快

适合业务场景

10、SparkSQL外部数据源实现(难点)

Kudu +ES +Ck

12、业务线:你完成什么,你做了什么,你遇到什么问题,你是如何解决的????

离线数仓采用的的技术是kudu+SparkSql离线计算,使用azkaban进行定时调度;也使用了kudu和

impala进行即席查询,数仓分为三层,第一层: ODS 层,原始数据存储层、第二层: DWD 层,数据仓库明细层、第三层: DWS

层,数据服务层。 每个主题报表开发,分为三层管理数据,其中DWD层和DWS层需要编写SparkSQL程序,业务处理: DWD层程序开发:

从Kudu表加载ODS层事实表数据和维度表数据,按照关联字段,进行拉宽操作,最后存储到 Kudu表 技术: Kudu -> SparkSQL

-> Kudu DWS层程序开发: 从Kudu表加载DWD层宽表数据,按照指标需要进行计算,最终存储到Kudu表中,以便使用 技术: Kudu -> SparkSQL -> Kudu

对整个物流离线数仓共分为5个主题开发: 主题:快递单主题、运单主题、仓库主题、车辆主题、用户主题

快递单主题: 快递单数:总快递单数 最大/最小/平均快递单数:

这三个指标分别从各类客户、各渠道、各网点、各终端,4个维度分析事实表:快递单表

维度表:客户表、快递员表、包裹表、网点表、公司网点关联表、公司表、区域表、客户地址关联 表、客户地址表、字典表


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
JavaScript 前端开发 应用服务中间件
【Vue面试题三十】、vue项目本地开发完成后部署到服务器后报404是什么原因呢?
这篇文章分析了Vue项目在服务器部署后出现404错误的原因,主要是由于history路由模式下服务器缺少对单页应用的支持,并提供了通过修改nginx配置使用`try_files`指令重定向所有请求到`index.html`的解决方案。
【Vue面试题三十】、vue项目本地开发完成后部署到服务器后报404是什么原因呢?
|
1月前
|
NoSQL Java Redis
面试官:项目中如何实现分布式锁?
面试官:项目中如何实现分布式锁?
76 6
面试官:项目中如何实现分布式锁?
|
18天前
|
JavaScript 前端开发
vue尚品汇商城项目-day01【8.路由跳转与传参相关面试题】
vue尚品汇商城项目-day01【8.路由跳转与传参相关面试题】
28 0
vue尚品汇商城项目-day01【8.路由跳转与传参相关面试题】
|
2月前
|
JavaScript 安全 前端开发
【Vue面试题二十九】、Vue项目中你是如何解决跨域的呢?
这篇文章介绍了Vue项目中解决跨域问题的方法,包括使用CORS设置HTTP头、通过Proxy代理服务器进行请求转发,以及在vue.config.js中配置代理对象的策略。
【Vue面试题二十九】、Vue项目中你是如何解决跨域的呢?
|
2月前
|
JavaScript 前端开发 API
【Vue面试题三十一】、你是怎么处理vue项目中的错误的?
这篇文章讨论了Vue项目中错误的处理方式,包括后端接口错误和代码逻辑错误的处理策略。文章详细介绍了如何使用axios的拦截器处理后端接口错误,以及Vue提供的全局错误处理函数`errorHandler`和生命周期钩子`errorCaptured`来处理代码中的逻辑错误。此外,还分析了Vue错误处理的源码,解释了`handleError`、`globalHandleError`、`invokeWithErrorHandling`和`logError`函数的作用和处理流程。
【Vue面试题三十一】、你是怎么处理vue项目中的错误的?
|
2月前
|
JSON JavaScript 前端开发
【Vue面试题二十四】、Vue项目中有封装过axios吗?主要是封装哪方面的?
这篇文章讨论了在Vue项目中封装axios的最佳实践,包括设置接口请求前缀、请求头、状态码、请求方法的封装,以及如何使用请求和响应拦截器来处理token和响应状态,从而简化HTTP请求的配置和错误处理,提高代码的可维护性。
【Vue面试题二十四】、Vue项目中有封装过axios吗?主要是封装哪方面的?
|
2月前
|
缓存 NoSQL 物联网
这些年背过的面试题——个人项目篇
本文是技术人面试系列个人项目篇,作者总结了一些自己的实战项目经验,一文带你详细了解,欢迎收藏!
|
2月前
|
机器学习/深度学习 设计模式 人工智能
面向对象方法在AIGC和大数据集成项目中的应用
【8月更文第12天】随着人工智能生成内容(AIGC)和大数据技术的快速发展,企业面临着前所未有的挑战和机遇。AIGC技术能够自动产生高质量的内容,而大数据技术则能提供海量数据的支持,两者的结合为企业提供了强大的竞争优势。然而,要充分利用这些技术,就需要构建一个既能处理大规模数据又能高效集成机器学习模型的集成框架。面向对象编程(OOP)以其封装性、继承性和多态性等特点,在构建这样的复杂系统中扮演着至关重要的角色。
56 3
|
2月前
|
监控 Java 开发者
揭秘Struts 2性能监控:选对工具与方法,让你的应用跑得更快,赢在起跑线上!
【8月更文挑战第31天】在企业级应用开发中,性能监控对系统的稳定运行至关重要。针对流行的Java EE框架Struts 2,本文探讨了性能监控的工具与方法,包括商用的JProfiler、免费的VisualVM以及Struts 2自带的性能监控插件。通过示例代码展示了如何在实际项目中实施这些监控手段,帮助开发者发现和解决性能瓶颈,确保应用在高并发、高负载环境下稳定运行。选择合适的监控工具需综合考虑项目需求、成本、易用性和可扩展性等因素。
37 0
|
2月前
|
SQL 大数据 分布式数据库
SQL与大数据的神秘力量:如何用高效SQL处理海量数据,让你的项目一鸣惊人?
【8月更文挑战第31天】在现代软件开发中,处理海量数据是关键挑战之一。本文探讨了SQL与大数据结合的方法,包括数据类型优化、索引优化、分区优化及分布式数据库应用,并通过示例代码展示了如何实施这些策略。通过遵循最佳实践,如了解查询模式、使用性能工具及定期维护索引,开发者可以更高效地利用SQL处理大规模数据集。随着SQL技术的发展,其在软件开发中的作用将愈发重要。
45 0