双非数学硕士零基础转大数据开发,收割腾讯 字节 百度等10个大厂 SP offer

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 双非数学硕士零基础转大数据开发,收割腾讯 字节 百度等10个大厂 SP offer

今天分享学习和面试经验的是学习群一位广东双非数学硕士,他研一开始零基础学习大数据开发,学习了几个月后,拿了几家大厂的offer并进行实习,这次秋招也收割了十几个大厂offer,基本都是SP,以下是部分offer,还有一些意向书直接拒了。


image.png


自我介绍:


本科:广东普通一本数学硕士,秋招拿了广东这边大部分大厂的大数据开发offer。



学习经历:


  1. 背景
  1. 在19年保送至本校硕士后,开始思考未来研究生毕业该从事什么样的工作,以及如何规划未来2.5年研究生涯。

  2. 因为从小对数字敏感以及从小接触互联网,觉得互联网的工作环境很高级,对大厂憧憬,感觉做这个工作很体面。因此希望从事数据挖掘、数据分析和数据开发的工作。

  1. 规划
  1. 由于我研究生期间为2019年-2022年,属于22届的应届生。那么我需要在2021年7月-2021年10月份参加秋招。因此我的准备时间为2019年7月-2021年7月,共有2年时间。由于2019年9月份-2020年6月份需要在校上课。因此19年9月-20年6月只能一边上课一边学习工作相关的知识。2020年7月-2021年7月可以在外实习,为秋招增加竞争力。

  2. 19年7月在网上搜索,网友说数据开发的门槛比较低,因此19年9月-20年3月在网上学习javaSE、数据结构与算法、hadoop、刷算法题。虽然疫情期间有大量的学习时间,但是学习过程发现学习艰难,没有指导,没有反馈,不知道自己学习效果如何。leetcode上浩如烟海的算法题让人怀疑人生。

  1. 开始
  1. 因此在20年4月份找峰哥帮忙规划学习路线、学基础、学项目、刷算法题。

  2. 从20年4月-20年6月,开始学习项目,刷剑指offer,背java、JVM、数据库等八股文理论。

  3. 两个月搞定了两个项目后,20年6月份开始应聘数据开发的工作,一开始面试很艰难,疫情慢慢结束,但是数据开发实习仍然很少。一开始只拿到广州的化妆品电商数据开发实习,去了3天。

  4. 公司的服务器持续被攻击,感觉这个氛围不行,无法接受。另外也拿到老百姓大药房数据开发实习,第四天提离职。

  5. 后来到7月份实习机会多起来,疫情管控变弱。又拿到吉比特数据开发实习。

  6. 实习了一段时间,又去面了腾讯,通过了,一直实习到春季实习,春季实习也拿了oppo、顺丰、Shopee,阿里lazada等offer。

  7. 这次秋招也在腾讯转正,并拿了字节百度等SP offer。


部分面试题参考:



  1. 介绍订单的开发过程
  2. 这个项目是你一个人在做,还是有老员工带着你做
  3. 除了后台开发,还有进行数仓方面的开发,是吗
  4. 主要负责哪一块的内容
  5. 只是从日志服务器取数据吗?
  6. 从日志服务器是直接用flume导入到HDFS吗?
  7. 为什么要分两层flume,不直接flume导入HDFS?
  8. 讲一下flume里面拦截器
  9. 为什么要分成两个topic传到kafka,后面不还是传到flume里消费吗?
  10. 有用到spark stream的一些操作吗?
  11. 数仓分几层?每层做什么?
  12. 数据可视化是自己开发吗?还是用工具?
  13. 有解析字段的函数,为什么要用UDF?怎么定位错误日志?
  14. 自定义UDF的步骤?
  15. 需求的指标是你倡议的?还是给的?
  16. 最近七天连续三天登录用户的指标代表什么含义?
  17. 除了简历上的指标,还分析过哪些指标?
  18. 有进行过优化吗?
  19. 为什么要压缩数据?对数据的压缩是在HDFS上进行吗?
  20. hive上有优化吗?sql语句上有优化吗?
  21. 有用代码实现mapjoin吗?
  22. 熟悉linux吗?awk怎么用?
  23. 全调度流程怎么实现?
  24. azkaban里面的job支持什么格式?
  25. 你觉得azkaban有什么优点?
  26. 有没有参与运维?

  27. 单例模式
  28. 工厂模式
  29. Tar
  30. Zip
  31. spark学到什么东西
  32. 人员配置
  33. 有多少台服务器(集群规模多大)
  34. 简述提交mapreduce流程的8个步骤
  35. hive分区和分桶技术,有什么用
  36. hive的架构
  37. 使用多线程要怎么使用
  38. 稍微介绍一下这个项目做了什么
  39. 项目用什么做的
  40. 人员配置
  41. 报表怎么开发
  42. 导师会带着做什么项目
  43. 导师有多少个学生
  44. 面试轮数=1
  45. 问题:
  46. 校园:
  47. 项目1:
  48. java的基础知识:
  49. Hadoop
  50. 数仓项目:
  51. linux:压缩的命令:
  52. 设计模式:

  53. 学习方法
  54. 为什么想来深圳工作
  55. 如何看待游戏行业
  56. 实习过程中最大的收获是什么
  57. 说说自己是怎样的一个人
  58. 自我介绍
  59. 主要做了什么工作
  60. 数据量有多大,人员组织架构
  61. 指标日活怎么定义,怎么计算
  62. 其他指标怎么计算
  63. 新增指标是n*n的join,你是怎么保证正常运行的
  64. 大数据量的复杂sql计算如何保证不崩溃,正常高效运行
  65. 实习生可以做这些的吗?
  66. 介绍一下项目
  67. 用一个指标举例子,介绍一下整个数据流的过程,是如何计算的
  68. 在计算指标的过程中遇到什么难题
  69. 数据量有多大,所有表有多大
  70. 可以看数据库的数据吗
  71. 用到了什么数据仓库模型
  72. 为什么要用星型模型,不用雪花模型?之前为什么要用雪花模型?
  73. 报表怎么开发,是什么样的
  74. 面试轮数=3
  75. 问题
  76. 一面(同事)
  77. 二面(组长)
  78. 三面(HR)


总结:


  1. 提前规划很重要
  1. 提前规划秋招需要构造的壁垒和门槛,例如熟练的理论和工具使用;丰富的大厂实习经验,含金量的项目经验等等。
  2. 等到秋招时,其他学生已经反应不过来了,想抄袭都来不及了。这样胜券在握

  1. 目标拆解
  1. 对总目标进行拆解成小目标
  2. 小目标更容易实现,有成就感

  1. 放平心态
  1. 结合1和2,规划何时达成各个目标
  2. 一步一脚印,脚踏实地

  1. 效果评估
  1. 通过面试评估自己的水平,让自己有反馈,刺激自己做的更好


--end--

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4月前
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之如何开发ODPS Spark任务
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
5月前
|
SQL 存储 分布式计算
ODPS开发大全:入门篇(3)
ODPS开发大全:入门篇
236 19
|
5月前
|
SQL 分布式计算 资源调度
ODPS开发大全:进阶篇(1)
ODPS开发大全:进阶篇
505 13
|
3月前
|
SQL 分布式计算 大数据
代码编码原则和规范大数据开发
此文档详细规定了SQL代码的编写规范,包括代码的清晰度,执行效率,以及注释的必要性。它强调所有SQL关键字需统一使用大写或小写,并禁止使用select *操作。此外,还规定了代码头部的信息模板,字段排列方式,INSERT, SELECT子句的格式,运算符的使用,CASE语句编写规则,查询嵌套规范,表别名定义,以及SQL注释的添加方法。这些规则有助于提升代码的可读性和可维护性。
68 0
|
3月前
|
SQL 分布式计算 大数据
大数据开发SQL代码编码原则和规范
这段SQL编码原则强调代码的功能完整性、清晰度、执行效率及可读性,通过统一关键词大小写、缩进量以及禁止使用模糊操作如select *等手段提升代码质量。此外,SQL编码规范还详细规定了代码头部信息、字段与子句排列、运算符前后间隔、CASE语句编写、查询嵌套、表别名定义以及SQL注释的具体要求,确保代码的一致性和维护性。
113 0
|
4月前
|
分布式计算 并行计算 大数据
【数据挖掘】百度2015大数据云计算研发笔试卷
百度2015年大数据云计算研发笔试卷的题目总结,涵盖了Hadoop、Spark、MPI计算框架特点、TCP连接建立过程、数组最大和问题、二分查找实现以及灯泡开关问题,提供了部分题目的解析和伪代码。
57 1
|
5月前
|
SQL 分布式计算 MaxCompute
SQL开发问题之对于ODPS中的UNION操作,执行计划的问题如何解决
SQL开发问题之对于ODPS中的UNION操作,执行计划的问题如何解决
|
5月前
|
SQL 分布式计算 MaxCompute
ODPS开发大全:入门篇(2)
ODPS开发大全:入门篇
180 14
|
5月前
|
存储 分布式计算 MaxCompute
构建NLP 开发问题之如何支持其他存储介质(如 HDFS、ODPS Volumn)在 transformers 框架中
构建NLP 开发问题之如何支持其他存储介质(如 HDFS、ODPS Volumn)在 transformers 框架中
|
5月前
|
SQL 分布式计算 资源调度
ODPS开发大全:进阶篇(4)
ODPS开发大全:进阶篇
259 10