【秋招面试】分享一则大数据面经:货拉拉大数据平台实习岗

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 【秋招面试】分享一则大数据面经:货拉拉大数据平台实习岗

货拉拉 大数据平台实习 一、二面、HR面(已offer)

作者:一步一步往上爬。

链接:https://www.nowcoder.com/discuss/670596?type=0&order=0&pos=14&page=1&ncTraceId=&channel=-1&source_id=discuss_tag_nctrack

来源:牛客网

效率好高,6.9一面,6.10二面,面完一小时后hr面,已经拿到offer。

6.9 一面 60min

1、自我介绍

2、闲聊(奖学金,评分标准)

3、深挖项目

4、Java基础

抽象类和接口的区别

final修饰类(这个没答上来…只记得修饰对象、变量的作用)

Synchronized的用法

可重入锁

Java的反射

Maven开发工具如果出现不同项目里同一个包的版本冲突怎么办?

5、数据结构和算法

平衡二叉树,作用

搜索树,复杂度

动态规划?

LRU(口述,之前写过,不过有一些点忘记,跟面试官讨论了一段时间)

6、计算机网络

TCP中的滑动窗口

广播风暴(忘记了,没回答上来…)

HTTP是连接的吗?举一个使用UDP协议的应用层协议

7、反问

部门主要工作

面试表现,还有几轮面试

还有哪些提高的地方

6.10 二面 33min

1、实习时间

2、Java基础

线程池(面试官说了一个我不懂的线程池,然后问我跟ExecuteThreadPool的区别,我说我不懂…不过对ExecuteThreadPool有所了解,他让我介绍了这个。)

后面问我有哪几种队列,可缓存的线程池最多有几个线程。(害这个面完才想到…失误了)

线程有哪几种创建方式?Thread,runable,callable,各自的区别。

3、大数据组件

Hadoop put文件过程,速度限制(速度限制不懂…)

副本策略

块大小及其原因(我讲了太大太小都不行,面试官说对了一些,还没答道点子上,主要跟寻道有关)

hive优化

4、操作系统

进程与线程的区别

线程越多越好吗?

5、数据库

索引

给个联合索引的例子,问会不会走索引?联合索引的底层?

索引数据结构?为什么用B+Tree不用红黑树?

5、排序

稳定排序?冒泡和快排,时间复杂度?快排的过程?最差情况?

6、场景题

一百万个数求最大100和最小100.

7、反问

6.10 hr面 二面过一个小时 8min

拉家常,实习时间等等。

一面到反问阶段面试官才意识到我的简历有写大数据组件,然后就随口提了几个问题。不过不得不说,面试官真的很好很有礼貌,说完问题就说现在到了你问我的阶段,这些问题就不用回答啦。然后我说我简短的回答一下吧,最后就记得几个回答几个。 😂

二面应该是leader面,也很有礼貌,上来都会先做自我介绍。然后问到深的地方我不清楚他就说咱换个问题,也有引导性。

总的来讲,货拉拉的面试体验真的很不错,面试官会先自我介绍,也会闲聊;最后问部门工作的时候,详细的说了好多,很感动哈哈哈。

问题集锦:

1.抽象类和接口的区别

2. final修饰类(这个没答上来…只记得修饰对象、变量的作用)


表示该类是无法被任何其他类继承的,意味着此类在一个继承树中是一个叶子类,并且此类的设计已被认为很完美而不需要进行修改或扩展。

3. Synchronized的用法

Synchronized是可重入锁的一种

4.可重入锁

什么是 “可重入”,可重入就是说某个线程已经获得某个锁,可以再次获取锁而不会出现死锁

5.Java的反射

JAVA反射机制是在运行状态中,对于任意一个实体类,都能够知道这个类的所有属性和方法;对于任意一个对象,都能够调用它的任意方法和属性;

6.Maven开发工具如果出现不同项目里同一个包的版本冲突怎么办?

寻找重复引用的jar。

定位这些Jar在哪里被引用了。

接下来需要分析舍与留,原则上保留高版本,大多数情况下是向下兼容的。

2、Java基础

线程池(面试官说了一个我不懂的线程池,然后问我跟ExecuteThreadPool的区别,我说我不懂…不过对ExecuteThreadPool有所了解,他让我介绍了这个。)

后面问我有哪几种队列,可缓存的线程池最多有几个线程。(害这个面完才想到…失误了)

线程有哪几种创建方式?Thread,runable,callable,各自的区别。

3、大数据组件

Hadoop put文件过程,速度限制(速度限制不懂…)

副本策略

块大小及其原因(我讲了太大太小都不行,面试官说对了一些,还没答道点子上,主要跟寻道有关)

hive优化

4、操作系统

进程与线程的区别

线程越多越好吗?

5、数据库

索引

给个联合索引的例子,问会不会走索引?联合索引的底层?

索引数据结构?为什么用B+Tree不用红黑树?

5、排序

稳定排序?冒泡和快排,时间复杂度?快排的过程?最差情况?

6、场景题

一百万个数求最大100和最小100.


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
24天前
|
存储 缓存 分布式计算
OSS大数据分析集成:MaxCompute直读OSS外部表优化查询性能(减少数据迁移的ETL成本)
MaxCompute直读OSS外部表优化方案,解决传统ETL架构中数据同步延迟高、传输成本大、维护复杂等问题。通过存储格式优化(ORC/Parquet)、分区剪枝、谓词下推与元数据缓存等技术,显著提升查询性能并降低成本。结合冷热数据分层与并发控制策略,实现高效数据分析。
|
1月前
|
人工智能 分布式计算 大数据
构建AI时代的大数据基础设施-MaxCompute多模态数据处理最佳实践
本文介绍了大数据与AI一体化架构的演进及其实现方法,重点探讨了Data+AI开发全生命周期的关键步骤。文章分析了大模型开发中的典型挑战,如数据管理混乱、开发效率低下和运维管理困难,并提出了解决方案。同时,详细描述了MaxCompute在构建AI时代数据基础设施中的作用,包括其强大的计算能力、调度能力和易用性特点。此外,还展示了MaxCompute在多模态数据处理中的应用实践以及具体客户案例,最后提供了体验MaxFrame解决方案的方式。
191 2
|
9月前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
813 1
|
4月前
|
存储 分布式计算 运维
课时6:阿里云MaxCompute:轻松玩转大数据
阿里云MaxCompute是全新的大数据计算服务,提供快速、完全托管的PB级数据仓库解决方案。它拥有高效的压缩存储技术、强大的计算能力和丰富的用户接口,支持SQL查询、机器学习等高级分析。MaxCompute兼容多种计算模型,开箱即用,具备金融级安全性和灵活的数据授权功能,帮助企业节省成本并提升效率。
155 0
产品经理-面试问题(实习)
这份文档主要讨论了实习面试中的常见问题,指出市面上的“面试100问”多针对C端产品,而B端和G端产品的面试则更注重实际工作经验。文中列举了几个典型的实习面试问题,如介绍实习经历、遇到的困难及解决方法、最佳项目以及竞争优势等,并提供了回答这些问题的思路和建议。文档还引导读者查阅更多相关资料,如高频分级面试和初级面试问题。
|
11月前
|
分布式计算 搜索推荐 物联网
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
|
11月前
|
人工智能 分布式计算 架构师
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
|
11月前
|
机器学习/深度学习 搜索推荐 算法
飞天大数据平台产品问题之AIRec在阿里巴巴飞天大数据平台中的功能如何解决
飞天大数据平台产品问题之AIRec在阿里巴巴飞天大数据平台中的功能如何解决
|
11月前
|
SQL 存储 分布式计算
MaxCompute 入门:大数据处理的第一步
【8月更文第31天】在当今数字化转型的时代,企业和组织每天都在产生大量的数据。有效地管理和分析这些数据变得至关重要。阿里云的 MaxCompute(原名 ODPS)是一个用于处理海量数据的大规模分布式计算服务。它提供了强大的存储能力以及丰富的数据处理功能,让开发者能够快速构建数据仓库、实时报表系统、数据挖掘等应用。本文将介绍 MaxCompute 的基本概念、架构,并演示如何开始使用这一大数据处理平台。
1487 0
|
11月前
|
SQL 分布式计算 大数据
"大数据计算难题揭秘:MaxCompute中hash join内存超限,究竟该如何破解?"
【8月更文挑战第20天】在大数据处理领域,阿里云的MaxCompute以高效稳定著称,但复杂的hash join操作常导致内存超限。本文通过一个实例解析此问题:数据分析师小王需对两个共计300GB的大表进行join,却遭遇内存不足。经分析发现,单个mapper任务内存默认为2GB,不足以支持大型hash表的构建。为此,提出三种解决方案:1) 提升mapper任务内存;2) 利用map join优化小表连接;3) 实施分而治之策略,将大表分割后逐一处理再合并结果。这些方法有助于提升大数据处理效率及稳定性。
292 0

热门文章

最新文章

  • 1
    云计算运维工程师面试技巧
    900
  • 2
    【机器学习】面试问答:PCA算法介绍?PCA算法过程?PCA为什么要中心化处理?PCA为什么要做正交变化?PCA与线性判别分析LDA降维的区别?
    317
  • 3
    【机器学习】面试问答:决策树如何进行剪枝?剪枝的方法有哪些?
    233
  • 4
    【机器学习】SVM面试题:简单介绍一下SVM?支持向量机SVM、逻辑回归LR、决策树DT的直观对比和理论对比,该如何选择?SVM为什么采用间隔最大化?为什么要将求解SVM的原始问题转换为其对偶问题?
    210
  • 5
    【深度学习】Pytorch面试题:什么是 PyTorch?PyTorch 的基本要素是什么?Conv1d、Conv2d 和 Conv3d 有什么区别?
    732
  • 6
    【深度学习】TensorFlow面试题:什么是TensorFlow?你对张量了解多少?TensorFlow有什么优势?TensorFlow比PyTorch有什么不同?该如何选择?
    562
  • 7
    【机器学习】面试题:LSTM长短期记忆网络的理解?LSTM是怎么解决梯度消失的问题的?还有哪些其它的解决梯度消失或梯度爆炸的方法?
    503
  • 8
    【数据挖掘】XGBoost面试题:与GBDT的区别?为什么使用泰勒二阶展开?为什么可以并行训练?为什么快?防止过拟合的方法?如何处理缺失值?
    558
  • 9
    【数据挖掘】 GBDT面试题:其中基分类器CART回归树,节点的分裂标准是什么?与RF的区别?与XGB的区别?
    188
  • 10
    【机器学习】过拟合和欠拟合怎么判断,如何解决?(面试回答)
    1006