211读者一周面7家大厂,收割5个大数据offer...

本文涉及的产品
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
云数据库 RDS MySQL Serverless,价值2615元额度,1个月
简介: 211读者一周面7家大厂,收割5个大数据offer...

自身情况:

  • 本硕末流211
  • leetcode刷题300+,剑指offer全刷,刷过的题基本上都能码出代码(不一定能过OC,现场面无影响).
  • SQL很熟练,面试没遇到过不会的.一些业务SQL(留存,在线时长,漏斗,连续登陆天数,共同关注好友等等等)也写的很熟练.
  • 理论复习了数据仓库理论/数据分层理论(精读了维度建模工具箱+阿里大数据之路两本书),操作系统,计算机网络,JAVA所有(基础+源码+多线程+JVM),Mysql(看了两遍高性能mysql)
  • 大数据组件准备了Hadoop(看了好几遍hadoop权威指南),Hive(Hql+配置调优),一些其他组件有了解知道干啥用的,没用过,就没忘简历上写.
  • 大数据算法:paxos,2pc,3pc,zab,cap,base.


实习情况:

  • 1年不知名数据仓库实习,开始学到东西了,后来半年多时间都在搬砖.sqlboy.做了无数个报表,做了一小扣扣数据仓库的建设.



准备情况:

  • 一边实习一边准备
  • 12月初写了简历(大数据组件只写了hadoop+hive,其他没用过的都没写到简历上,也没复习,怕被问住).按照简历所写的内容,一点一点开始从头复习.大概时间分配一个星期操作系统,一个星期计算机网络,一个月JAVA,一个星期Mysql,一个星期Hadoop.两天数据仓库理论(因为自身一直都懂,所以时间比较少)
  • 刷面经(大部分刷的是JAVA后台的面经)



投递公司:

  • 时间线:1月底开始投简历,2月下旬和3月上旬陆续做了笔试.3月中旬那一周集中面了六七家.再后来的面试全拒绝了.
  • 简历挂
  1. 陌陌
  2. 猫眼
  3. 快看漫画

陌陌投递完秒挂(可能因为之前实习的时候投了简历,拒了面试的缘故吧,找实习的学弟学妹们实习投递也要谨慎啊),猫眼和快看漫画怀疑是刷kpi的,投递之后什么消息都没有,一直在初筛.不合适都懒得给我点.

  • 笔试挂
  1. 网易
  2. 百度(提前批挂了简历,后续被捞了做笔试,笔试3道题AC2.7挂了,不太懂为啥捞人)
  • 面试挂
  1. 猿辅导(笔试算法题一道题没做出来还是进了面试,但是二面挂,自我认为面的不错,可能被卡了学历,数据开发只要985的)
  2. 360(一面挂,岗位不符,跟面试官没啥共同语言)
  • 拒面试
  1. 腾讯阅文(笔试都是业务SQL题)
  2. VIPKID
  3. 好未来
  4. 银联
  • 面试走完流程
  1. 贝壳(offer)
  2. keep(offer)
  3. 马蜂窝(offer)
  4. 快手(准offer:oc谈薪,offer审批中,是真滴慢!!!)
  5. 美团(录取排位中,从hr得知技术面评价不错,但是hc少,意向书在我面试前就发光了,可能开水团发完带薪金的offer我还有很大机会,hhhhhh)


面经(时间太长了,大多数问题都忘记了)

  • 贝壳:
  1. 先介绍自己
  2. 数据仓库分层介绍一下,ods和dwd区别,dm是什么?报表数据为什么不能用ods层的数据?
  3. 为什么需要元数据?
  4. 数据质量怎么评估?
  5. MR的原理
  6. SQL题:一道简单的sql(分组求排名?具体忘了)
  7. 怎么保证数据一致性?
  8. 事实都有哪些类型?
  9. 数据仓库搭建过程?
  10. 维度建模的优缺点?还知道别的数据建模吗?除了Innmon模型还有知道吗?
  11. SQL语句的执行过程.
  12. 实时相关你知道吗?
  • 猿辅导
  1. 介绍自己,随便问了简历上的东西
  2. 算法题: 二叉树路径和
  3. SQL题:具体忘了,不太简单,我写了整整一页纸的SQL.
  4. 如何搭建摩拜的数据仓库?
  5. 如何确定业务过程?
  6. 算法题:某个金额的硬币兑换方法
  • 美团
  1. 数据仓库分层
  2. hive的map/reduce数怎么确定?
  3. hive数据倾斜怎么办?
  4. 二叉树种类?完全二叉树知道么?有什么应用?
  5. TOPk问题.除了堆排还有什么解决方式?
  6. SQL题:给定uid,login_time,logout_time 求每分钟最大的在线人数.两个time时间都是标准时间datetime(2019-01-01 12:00:00)这种.说实话这个挺难的,我的直觉想法就是用UDF/transform来解决.面试官肯定了解法,但是 不是想要听到的答案.他说出这道题的目的就不是让你能用SQL写出来的.
  7. 维度建模过程?
  8. 缓慢维度变化问题?
  9. 支架表?拉链表?统计带状维度如何更新?
  10. 为什么维度要做到扁平多对一?
  11. 元数据怎么管理?
  12. hive数据倾斜怎么办?
  13. kafka了解吗?干什么用的?
  14. 说说操作系统打开文件到屏幕显示内容的过程.
  15. 有什么学习习惯?
  • 360
  • 做过spam? 怎么做的?
  • 设计一套实时spam架构.
  • mysql索引知道吗?索引都有哪些数据类型?为啥不用hashmap?
  • 两个数组求中位数,必须最优解O(log(min(m,n)))的那种解法.

实话:360面试体验很不好,面试官应该是做实时反垃圾的平台的,我实习都是接触离线的,我简历上的东西一个不问,一直再问他会的东西.我直接说我不会,他还继续问.大部分时间都是让我设计那玩意. 不引导强行让你设计,说不会也得设计.

  • 快手
  • 数据分层理论
  • 数据建模过程
  • 缓慢维度变化问题
  • 订单表如何存储?
  • 窗口函数会吗?是一对一,还是一对多? 怎么用?
  • hive数据倾斜怎么办?
  • SQL题:行转列,列转行
  • 二叉树后序遍历非递归
  • 为什么要有数据仓库?
  • 数据怎么保证一致性?
  • 为什么要做元数据管理?如何做元数据管理?
  • 数据质量怎么评估?
  • 缓慢维度变化问题*2
  • Hive Map数和Reduce数如何确定?
  • Hive如何调优?都有哪些参数?
  • Hive如何解决小文件问题?Map阶段?Reduce阶段?
  • JVM内存如何分配?什么时候新生代GC,什么时候老年代GC?
  • HashMap和HashTable有什么区别?
  • 会Spark吗?不会!别问,不知道!
  • SQL题:live_id,uid,in_time,out_time求每个直播间每分钟最大的在线人数.in_time和out_time是datetime类型.跟美团一面SQL题一样,就是加个维度.15分钟内写完.

有没有发现美团和快手问的问题很像!!!

  • Keep
  • 数仓分层
  • JAVA基础:访问属性关键字/接口继承/类继承/接口和类的区别/java8匿名函数/如何将函数付给变量?
  • 任务调度系统知道吗?如何判断DAG图?写出代码!
  • SQL题:忘了,挺简单的.窗口函数.
  • 如何做好元数据管理?
  • 数据安全怎么保证?为什么做到字段安全困难?
  • 数据倾斜怎么处理?怎么判断哪里出现倾斜?除了看log日志还有什么方法?
  • 任务调度系统*2
  • 数据仓库主题怎么建设?
  • 主动介绍Keep的工作 ....

当天拿的意向书,最近大裁员.按业务线裁人,进去谁能安心啊!!!

  • 马蜂窝
  • 数据仓库分层
  • 临时需求怎么处理?怎么管理?
  • 数据指标如何保证一致性?
  • 数据仓库如何对外提供数据
  • 设计一个平台,要同时满足BI+临时需求+数据API提供.说实话我到现在也没明白出这问题什么意思!沙雕问题!我觉得这三个就不应该揉到一起做,要是做一个也要分三个功能模块.就分模块给的设计.
  • SQL题:uid,login_date. 找出每个用户连续登陆的最大天数.如果我还要知道哪几天登陆了,怎么写?
  • 数据仓库分层*2
  • 试着设计实时的数据仓库
  • 你的技术栈有哪些?
  • 一面面试官对你评价不错,我是做搜索的.我这也没有什么问的了,你有什么想问我的吗



总结:

  • 好多人都在吐槽说大数据需要看的东西太多了,准备不过来.说实话,我觉得面试主要问问题来源来自你的简历.你把简历上写的都弄明白,不怕深问,怎么着你也能熬过面试的那一个小时.
  • 针对面试准备项目和知识点,功利性一点。边面边补,多总结复盘,不要太怕,踏出第一步很重要!


--end--

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
存储 算法 大数据
原创 | 一张图秒杀滴滴大数据场景题(已拿offer)
原创 | 一张图秒杀滴滴大数据场景题(已拿offer)
原创 | 一张图秒杀滴滴大数据场景题(已拿offer)
|
存储 算法 Java
专科生作业帮大数据面经(已拿offer,附详细答案)
专科生作业帮大数据面经(已拿offer,附详细答案)
|
13天前
|
分布式计算 大数据 BI
MaxCompute产品使用合集之MaxCompute项目的数据是否可以被接入到阿里云的Quick BI中
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
13天前
|
SQL 分布式计算 大数据
MaxCompute产品使用合集之怎样可以将大数据计算MaxCompute表的数据可以导出为本地文件
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
13天前
|
分布式计算 DataWorks 关系型数据库
MaxCompute产品使用合集之可以使用什么方法将MySQL的数据实时同步到MaxCompute
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
12天前
|
分布式计算 DataWorks 数据库
DataWorks操作报错合集之DataWorks使用数据集成整库全增量同步oceanbase数据到odps的时候,遇到报错,该怎么处理
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
24 0
|
12天前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之在 DataWorks 中,使用Oracle作为数据源进行数据映射和查询,如何更改数据源为MaxCompute或其他类型
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
27 1
|
13天前
|
分布式计算 DataWorks 调度
DataWorks产品使用合集之在DataWorks中,查看ODPS表的OSS对象如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
28 1
|
13天前
|
分布式计算 DataWorks MaxCompute
DataWorks产品使用合集之在DataWorks中,将数据集成功能将AnalyticDB for MySQL中的数据实时同步到MaxCompute中如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
24 0

热门文章

最新文章