【秋招面试】分享一则大数据面经:货拉拉大数据平台实习岗

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 【秋招面试】分享一则大数据面经:货拉拉大数据平台实习岗

货拉拉 大数据平台实习 一、二面、HR面(已offer)

作者:一步一步往上爬。

链接:https://www.nowcoder.com/discuss/670596?type=0&order=0&pos=14&page=1&ncTraceId=&channel=-1&source_id=discuss_tag_nctrack

来源:牛客网

效率好高,6.9一面,6.10二面,面完一小时后hr面,已经拿到offer。

6.9 一面 60min

1、自我介绍

2、闲聊(奖学金,评分标准)

3、深挖项目

4、Java基础

抽象类和接口的区别

final修饰类(这个没答上来…只记得修饰对象、变量的作用)

Synchronized的用法

可重入锁

Java的反射

Maven开发工具如果出现不同项目里同一个包的版本冲突怎么办?

5、数据结构和算法

平衡二叉树,作用

搜索树,复杂度

动态规划?

LRU(口述,之前写过,不过有一些点忘记,跟面试官讨论了一段时间)

6、计算机网络

TCP中的滑动窗口

广播风暴(忘记了,没回答上来…)

HTTP是连接的吗?举一个使用UDP协议的应用层协议

7、反问

部门主要工作

面试表现,还有几轮面试

还有哪些提高的地方

6.10 二面 33min

1、实习时间

2、Java基础

线程池(面试官说了一个我不懂的线程池,然后问我跟ExecuteThreadPool的区别,我说我不懂…不过对ExecuteThreadPool有所了解,他让我介绍了这个。)

后面问我有哪几种队列,可缓存的线程池最多有几个线程。(害这个面完才想到…失误了)

线程有哪几种创建方式?Thread,runable,callable,各自的区别。

3、大数据组件

Hadoop put文件过程,速度限制(速度限制不懂…)

副本策略

块大小及其原因(我讲了太大太小都不行,面试官说对了一些,还没答道点子上,主要跟寻道有关)

hive优化

4、操作系统

进程与线程的区别

线程越多越好吗?

5、数据库

索引

给个联合索引的例子,问会不会走索引?联合索引的底层?

索引数据结构?为什么用B+Tree不用红黑树?

5、排序

稳定排序?冒泡和快排,时间复杂度?快排的过程?最差情况?

6、场景题

一百万个数求最大100和最小100.

7、反问

6.10 hr面 二面过一个小时 8min

拉家常,实习时间等等。

一面到反问阶段面试官才意识到我的简历有写大数据组件,然后就随口提了几个问题。不过不得不说,面试官真的很好很有礼貌,说完问题就说现在到了你问我的阶段,这些问题就不用回答啦。然后我说我简短的回答一下吧,最后就记得几个回答几个。 😂

二面应该是leader面,也很有礼貌,上来都会先做自我介绍。然后问到深的地方我不清楚他就说咱换个问题,也有引导性。

总的来讲,货拉拉的面试体验真的很不错,面试官会先自我介绍,也会闲聊;最后问部门工作的时候,详细的说了好多,很感动哈哈哈。

问题集锦:

1.抽象类和接口的区别

2. final修饰类(这个没答上来…只记得修饰对象、变量的作用)


表示该类是无法被任何其他类继承的,意味着此类在一个继承树中是一个叶子类,并且此类的设计已被认为很完美而不需要进行修改或扩展。

3. Synchronized的用法

Synchronized是可重入锁的一种

4.可重入锁

什么是 “可重入”,可重入就是说某个线程已经获得某个锁,可以再次获取锁而不会出现死锁

5.Java的反射

JAVA反射机制是在运行状态中,对于任意一个实体类,都能够知道这个类的所有属性和方法;对于任意一个对象,都能够调用它的任意方法和属性;

6.Maven开发工具如果出现不同项目里同一个包的版本冲突怎么办?

寻找重复引用的jar。

定位这些Jar在哪里被引用了。

接下来需要分析舍与留,原则上保留高版本,大多数情况下是向下兼容的。

2、Java基础

线程池(面试官说了一个我不懂的线程池,然后问我跟ExecuteThreadPool的区别,我说我不懂…不过对ExecuteThreadPool有所了解,他让我介绍了这个。)

后面问我有哪几种队列,可缓存的线程池最多有几个线程。(害这个面完才想到…失误了)

线程有哪几种创建方式?Thread,runable,callable,各自的区别。

3、大数据组件

Hadoop put文件过程,速度限制(速度限制不懂…)

副本策略

块大小及其原因(我讲了太大太小都不行,面试官说对了一些,还没答道点子上,主要跟寻道有关)

hive优化

4、操作系统

进程与线程的区别

线程越多越好吗?

5、数据库

索引

给个联合索引的例子,问会不会走索引?联合索引的底层?

索引数据结构?为什么用B+Tree不用红黑树?

5、排序

稳定排序?冒泡和快排,时间复杂度?快排的过程?最差情况?

6、场景题

一百万个数求最大100和最小100.


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
101 1
|
4月前
|
分布式计算 搜索推荐 物联网
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
|
4月前
|
人工智能 分布式计算 架构师
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
|
4月前
|
机器学习/深度学习 搜索推荐 算法
飞天大数据平台产品问题之AIRec在阿里巴巴飞天大数据平台中的功能如何解决
飞天大数据平台产品问题之AIRec在阿里巴巴飞天大数据平台中的功能如何解决
|
4月前
|
存储 机器学习/深度学习 数据采集
深入解析大数据核心概念:数据平台、数据中台、数据湖与数据仓库的异同与应用
深入解析大数据核心概念:数据平台、数据中台、数据湖与数据仓库的异同与应用
|
4月前
|
SQL 存储 分布式计算
MaxCompute 入门:大数据处理的第一步
【8月更文第31天】在当今数字化转型的时代,企业和组织每天都在产生大量的数据。有效地管理和分析这些数据变得至关重要。阿里云的 MaxCompute(原名 ODPS)是一个用于处理海量数据的大规模分布式计算服务。它提供了强大的存储能力以及丰富的数据处理功能,让开发者能够快速构建数据仓库、实时报表系统、数据挖掘等应用。本文将介绍 MaxCompute 的基本概念、架构,并演示如何开始使用这一大数据处理平台。
597 0
|
4月前
|
SQL 分布式计算 大数据
"大数据计算难题揭秘:MaxCompute中hash join内存超限,究竟该如何破解?"
【8月更文挑战第20天】在大数据处理领域,阿里云的MaxCompute以高效稳定著称,但复杂的hash join操作常导致内存超限。本文通过一个实例解析此问题:数据分析师小王需对两个共计300GB的大表进行join,却遭遇内存不足。经分析发现,单个mapper任务内存默认为2GB,不足以支持大型hash表的构建。为此,提出三种解决方案:1) 提升mapper任务内存;2) 利用map join优化小表连接;3) 实施分而治之策略,将大表分割后逐一处理再合并结果。这些方法有助于提升大数据处理效率及稳定性。
89 0
|
4月前
|
SQL 分布式计算 大数据
"揭秘MaxCompute大数据秘术:如何用切片技术在数据海洋中精准打捞?"
【8月更文挑战第20天】在大数据领域,MaxCompute(曾名ODPS)作为阿里集团自主研发的服务,提供强大、可靠且易用的大数据处理平台。数据切片是其提升处理效率的关键技术之一,它通过将数据集分割为小块来优化处理流程。使用MaxCompute进行切片可显著提高查询性能、支持并行处理、简化数据管理并增强灵活性。例如,可通过SQL按时间或其他维度对数据进行切片。此外,MaxCompute还支持高级切片技术如分区表和分桶表等,进一步加速数据处理速度。掌握这些技术有助于高效应对大数据挑战。
119 0
|
4月前
|
自然语言处理 网络协议 JavaScript
23.2月 可能七牛云实习测试面试(技术面一面)面经整理
关于2月进行的七牛云实习测试面试(技术面一面)的面经整理,涵盖了多个技术问题,包括马尔可夫链的用处、软件测试工具、TCP/IP协议的三次握手过程、TCP与UDP的区别、网络诊断方法、DNS的作用、ifconfig命令的用途、Spring Boot的优势以及Java中Map的了解,还包括了一个编程题目:在n个书中找出k个最小的数。
|
15天前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
126 7