2021超全大数据面试宝典,吐血总结十万字,大数据面试收藏这一篇就够了 (一)

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
简介: 2021超全大数据面试宝典

版本

时间

描述

V1.0

2020-02-18

创建

V1.2

2020-06-17

新增 spark 、flink相关面试题

V1.3

2021-06-18

新增 java、JVM、mysql、JUC等


本套面试题堪称史上最全,既有面试技巧,面试流程,还有技术总结,面试真题,包含算法,Java,Mysql,大数据框架,大数据项目等。


第一版是按照大数据技术进行划分(另一版,可在公众号【五分钟学大数据】后台发送 面试 获取),第二版是综合版 (此版)。


目   录


第1章        找工作流程. 1

1.1         学习技能. 1

1.2         编写简历. 1

1.3         投简历. 1

1.4         约面试时间. 1

1.5         面试. 1

1.6         等回复. 1

1.7         拿offer 2

1.8         入职. 2

1.9         准备必备资料,签合同. 2

第2章        面试说明. 2

2.1         笔试. 2

2.2         面试. 3

2.2.1人事面试. 3

2.2.2 ·手写代码. 3

2.2.3技术经理面试. 3

2.2.4 CTO/技术架构师等面试(如果过了技术经理面试). 4

2.3         机试. 4

2.4         面试考察方式. 4

2.4.1知识广度. 4

2.4.2知识深度. 6

2.5         面试过程最关键的是什么?. 7

2.6         面试要点. 7

2.7         面试技巧. 7

2.7.1六个常见问题. 7

2.7.2两个注意事项. 8

2.7.3 自我介绍(控制在4分半以内,不超过5分钟). 8

第3章        手写代码. 9

3.1         冒泡排序. 9

3.2         二分查找. 10

3.3         快排. 12

3.4         归并. 13

3.5         二叉树之Scala实现. 15

3.5.1二叉树概念. 15

3.5.2二叉树的特点. 15

3.5.3二叉树的Scala代码实现. 15

3.6         手写Spark-WordCount 21

第4章        项目架构. 21

4.1         数仓概念. 21

4.2         系统数据流程设计. 22

4.3         框架版本选型. 22

4.4         服务器选型. 22

4.5         集群规模. 23

4.6         人员配置参考. 23

4.6.1整体架构. 23

4.6.2你们部门的职级等级,晋升规则. 23

4.6.3人员配置参考. 23

第5章        项目涉及技术. 24

5.1         Linux&Shell相关总结. 24

5.1.1 Linux常用命令. 24

5.1.2 Shell常用工具. 24

5.2         Hadoop相关总结. 24

5.2.1 Hadoop常用端口号. 24

5.2.2 Hadoop配置文件以及简单的Hadoop集群搭建. 25

5.2.3 HDFS读流程和写流程. 25

5.2.4 MapReduce的Shuffle过程及Hadoop优化(包括:压缩、小文件、集群优化). 26

5.2.5 Yarn的Job提交流程. 28

5.2.6 Yarn的默认调度器、调度器分类、以及他们之间的区别. 29

5.2.7项目经验之LZO压缩. 30

5.2.8 Hadoop参数调优. 31

5.2.9项目经验之基准测试. 32

5.2.10 Hadoop宕机. 33

5.3         Zookeeper相关总结. 33

5.3.1选举机制. 33

5.3.2常用命令. 34

5.4         Flume相关总结. 34

5.4.1 Flume组成,Put事务,Take事务. 34

5.4.2 Flume拦截器. 34

5.4.3 Flume Channel选择器. 35

5.4.4 Flume监控器. 35

5.4.5 Flume采集数据会丢失吗?(防止数据丢失的机制). 36

5.4.6 Flume内存. 36

5.4.7 FileChannel优化. 36

5.4.8 HDFS Sink小文件处理. 37

5.5         Kafka相关总结. 38

5.5.1 Kafka架构. 38

5.5.2 Kafka压测. 38

5.5.3 Kafka的机器数量. 38

5.5.4 Kafka的日志保存时间. 38

5.5.5 Kafka的硬盘大小. 38

5.5.6 Kafka监控. 38

5.5.7 Kakfa分区数. 39

5.5.8副本数设定. 39

5.5.9多少个Topic 39

5.5.10 Kafka丢不丢数据. 39

5.5.11 Kafka的ISR副本同步队列. 39

5.5.12 Kafka中数据量计算. 39

5.5.13 Kafka挂掉. 40

5.5.14 Kafka消息数据积压,Kafka消费能力不足怎么处理?. 40

5.5.15 Kafka的再平衡机制. 40

5.6         Hive相关总结. 47

5.6.1 Hive的架构. 47

5.6.2 Hive和数据库比较. 48

5.6.3内部表和外部表. 48

5.6.4 4个By区别. 48

5.6.5窗口函数. 48

5.6.6 自定义UDF、UDTF 49

5.6.7 Hive优化. 49

5.7         HBase相关总结. 51

5.7.1 HBase存储结构. 51

5.7.2读流程. 51

5.7.3写流程. 52

5.7.4数据flush过程. 52

5.7.5数据合并过程. 52

5.7.6 hbase-default.xml中相关参数. 53

5.7.7 rowkey设计原则. 54

5.7.8 RowKey如何设计. 54

5.8         Sqoop参数. 54

5.8.1 Sqoop导入导出Null存储一致性问题. 54

5.8.2 Sqoop数据导出一致性问题. 54

5.8.3 Sqoop底层运行的任务是什么. 55

5.8.4 Sqoop数据导出的时候一次执行多长时间. 55

5.9         Scala相关总结. 55

5.9.1元组. 55

5.9.2隐式转换. 55

5.9.3函数式编程理解. 56

5.9.4样例类. 56

5.9.5柯里化. 56

5.9.6闭包. 57

5.9.7 Some、None、Option的正确使用. 57

5.10       Spark相关总结. 57

5.10.1 Spark有几种部署方式?请分别简要论述. 57

5.10.2 Spark任务使用什么进行提交,javaEE界面还是脚本. 58

5.10.3 Spark提交作业参数(重点). 58

5.10.4简述Spark的架构与作业提交流程(画图讲解,注明各个部分的作用)(重点). 59

5.10.5如何理解Spark中的血统概念(RDD)(笔试重点). 59

5.10.6简述Spark的宽窄依赖,以及Spark如何划分stage,每个stage又根据什么决定task个数? (笔试重点). 59

5.10.7请列举Spark的transformation算子(不少于8个),并简述功能(重点). 59

5.10.8请列举Spark的action算子(不少于6个),并简述功能(重点). 60

5.10.9请列举会引起Shuffle过程的Spark算子,并简述功能。. 61

5.10.10简述Spark的两种核心Shuffle(HashShuffle与SortShuffle)的工作流程(包括未优化的HashShuffle、优化的HashShuffle、普通的SortShuffle与bypass的SortShuffle)(重点). 61

5.10.11 Spark常用算子reduceByKey与groupByKey的区别,哪一种更具优势?(重点). 62

5.10.12 Repartition和Coalesce关系与区别. 63

5.10.13分别简述Spark中的缓存机制(cache和persist)与checkpoint机制,并指出两者的区别与联系. 63

5.10.14简述Spark中共享变量(广播变量和累加器)的基本原理与用途。(重点). 63

5.10.15当Spark涉及到数据库的操作时,如何减少Spark运行中的数据库连接数?. 64

5.10.16简述SparkSQL中RDD、DataFrame、DataSet三者的区别与联系? (笔试重点). 64

5.10.17 SparkSQL中join操作与left join操作的区别?. 65

5.10.18 SparkStreaming有哪几种方式消费Kafka中的数据,它们之间的区别是什么?(重点). 65

5.10.19简述SparkStreaming窗口函数的原理(重点). 66

5.10.20请手写出wordcount的Spark代码实现(Scala)(手写代码重点). 67

5.10.21如何使用Spark实现topN的获取(描述思路或使用伪代码)(重点). 67

5.10.22京东:调优之前与调优之后性能的详细对比(例如调整map个数,map个数之前多少、之后多少,有什么提升). 67

5.11       Flink相关总结. 68

5.11.1简单介绍一下Flink 68

5.11.2 Flink相比Spark Streaming有什么区别?. 68

5.11.3 Flink中的分区策略有哪几种?. 70

5.11.4 Flink的并行度有了解吗?Flink中设置并行度需要注意什么?. 76

5.11.5 Flink支持哪几种重启策略?分别如何配置?. 76

5.11.6 Flink的分布式缓存有什么作用?如何使用?. 76

5.11.7 Flink中的广播变量,使用广播变量需要注意什么事项?. 77

5.11.8 Flink中对窗口的支持包括哪几种?说说他们的使用场景. 77

5.11.9 Flink 中的 State Backends是什么?有什么作用?分成哪几类?说说他们各自的优缺点?. 78

5.11.10 Flink中的时间种类有哪些?各自介绍一下?. 79

5.11.11 WaterMark是什么?是用来解决什么问题?如何生成水印?水印的原理是什么?. 79

5.11.12 Flink的table和SQL熟悉吗?Table API和SQL中TableEnvironment这个类有什么作用. 79

5.11.13 Flink如何实现SQL解析的呢?. 80

5.11.14 Flink是如何做到批处理与流处理统一的?. 80

5.11.15 Flink中的数据传输模式是怎么样的?. 81

5.11.16 Flink的容错机制. 82

5.11.17 Flink在使用Window时出现数据倾斜,你有什么解决办法?. 82

5.11.18 Flink任务,delay极高,请问你有什么调优策略?. 82

第6章        业务交互数据分析. 83

6.1         电商常识. 83

6.2         电商业务流程. 83

6.3         业务表关键字段. 83

6.3.1订单表(order_info). 83

6.3.2订单详情表(order_detail). 84

6.3.3商品表. 84

6.3.4用户表. 84

6.3.5商品一级分类表. 84

6.3.6商品二级分类表. 85

6.3.7商品三级分类表. 85

6.3.8支付流水表. 85

6.4         MySql中表的分类. 85

6.5         同步策略. 86

6.6         关系型数据库范式理论. 86

6.7         数据模型. 87

6.8         业务数据数仓搭建. 87

6.8.1 ods层. 88

6.8.2 dwd层. 88

6.8.3 dws层. 88

6.9         需求一:GMV成交总额. 89

6.10       需求二:转化率. 89

6.10.1新增用户占日活跃用户比率表. 89

6.10.2用户行为转化率表. 89

6.11       需求三:品牌复购率. 89

6.11.1用户购买商品明细表(宽表). 89

6.11.2品牌复购率表. 89

6.12       项目中有多少张宽表. 90

6.13       拉链表. 90

第7章        项目中遇到过哪些问题. 91

7.1         Hadoop宕机. 91

7.2         Ganglia监控. 92

7.3         Flume小文件. 92

7.4         Kafka挂掉. 92

7.5         Kafka消息数据积压,Kafka消费能力不足怎么处理?. 92

7.6         Kafka数据重复. 92

7.7         Mysql高可用. 92

7.8         自定义UDF和UDTF解析和调试复杂字段. 93

7.9         Sqoop数据导出Parquet 93

7.10       Sqoop数据导出控制. 93

7.11       Sqoop数据导出一致性问题. 93

7.12       SparkStreaming优雅关闭. 94

7.13       Spark OOM、数据倾斜解决. 94

第8章        项目经验. 94

8.1         框架经验. 94

8.1.1 Hadoop 94

8.1.2 Flume 95

8.1.3 Kafka 95

8.1.4 Tez引擎优点(略过)?. 96

8.1.5 Sqoop参数. 96

8.1.6 Azkaban每天执行多少个任务. 96

8.2         业务经验. 97

8.2.1 ODS层采用什么压缩方式和存储格式?. 97

8.2.2 DWD层做了哪些事?. 97

8.2.3 DWS层做了哪些事?. 97

8.2.4分析过哪些指标(一分钟至少说出30个指标). 99

8.2.5分析过最难的两个指标,现场手写. 102

8.2.6数据仓库每天跑多少张表,大概什么时候运行,运行多久?. 103

8.2.7数仓中使用的哪种文件存储格式. 103

8.2.8数仓中用到过哪些Shell脚本及具体功能. 104

8.2.9项目中用过的报表工具. 104

8.2.10测试相关. 104

8.2.11项目实际工作流程. 104

8.2.12项目中实现一个需求大概多长时间. 104

8.2.13项目在3年内迭代次数,每一个项目具体是如何迭代的。. 105

8.2.14项目开发中每天做什么事. 105

第9章        JavaSE(答案精简). 105

9.1         hashMap底层源码,数据结构. 105

9.2         Java自带有哪几种线程池?. 108

9.3         HashMap和HashTable区别. 109

9.4         TreeSet和HashSet区别. 110

9.5         String buffer和String build区别. 110

9.6         Final、Finally、Finalize 110

9.7         ==和Equals区别. 111

第10章     Redis(答案精简). 111

10.1       缓存雪崩、缓存穿透、缓存预热、缓存更新、缓存降级. 111

10.2       哨兵模式. 118

10.3       数据类型. 119

10.4       持久化. 119

10.5       悲观锁. 120

10.6       乐观锁. 120

10.7       redis是单线程的,为什么那么快. 120

第11章     MySql 121

11.1       MyISAM与InnoDB的区别. 121

11.2       索引. 121

11.3       b-tree和b+tree的区别. 122

11.4       MySQL的事务. 122

11.5       常见面试sql 123

第12章     JVM 128

12.1       JVM内存分哪几个区,每个区的作用是什么? 128

12.2       Java类加载过程? 129

12.3       java中垃圾收集的方法有哪些? 130

12.4       如何判断一个对象是否存活?(或者GC对象的判定方法) 131

12.5       什么是类加载器,类加载器有哪些? 131

12.6       简述Java内存分配与回收策略以及Minor GC和Major GC(full GC)  132

第13章     JUC 132

13.1       Synchronized与Lock的区别. 132

13.2       Runnable和Callable的区别. 133

13.3       什么是分布式锁. 133

13.4       什么是分布式事务. 133

 

 

  1. 找工作流程


  1. 学习技能


1.1.1


  1. 编写简历


简历编写可在公众号【五分钟学大数据】后台发送:简历,获取大数据简历的模板,包含各个行业及各个项目,非常全。


  1. 投简历


如能内推,尽量走内推路线,可免简历筛选,如果找不到内推路径,可在牛客网上搜内推码,上面有很多公司的员工发内推码。


招聘软件推荐 Boss直聘,这个软件还是很靠谱的,其他的智联招聘,拉勾,前程无忧,猎聘也不错。


  1. 约面试时间
  2. 一般需要多轮面试
  3. 不想去的公司先去面试,积累面试经验,想去的公司约到最后
  4. 合理安排面试时间,给自己尽可能的留一些复习的时间
  5. 面试
  6. 人事面试,了解基本情况--笔试/填表
  7. 一面:技术经理面试(面试官一般是入职之后你的直接上级,此面很重要)
  8. 二面:技术老大面试
  9. 三面:架构师/大Boss面试
  10. .....
  11. 等回复
  12. 不要立马入职
  13. 拿offer
  14. 入职
  15. 准备必备资料,签合同
  16. 面试说明
  17. 笔试
  18. 试题量:一般两页纸,多的有3页纸
  19. 考题类型:选择和简答,简答居多


选择题:基础知识类型的选择题(编程语言,数据库,操作系统,大数据要点知识,网络,计算机组成原理等)


   简答题


  1. 知识点的详细解释类,比如,MapReduce的Shuffle详细过程
  2. 对比之类,Hive内部表和外部表的区别,MapReduce和Spark的异同?

 

   编程题:算法题(考察逻辑思维,考察解答问题的方式方法等)


   数据库类型的SQL编写题目(MySQL或者Hive)这是必出题,也是分必拿题。否则就全盘覆没了。


SQL:必有(Hive和MySQL)


   场景题


   给你假定一种场景,让你给出解决方案,面试问的最多的也是这种

   遇到了问题(集群节点宕机,任务运行出错,数据丢失等),该如何解决?

 

   简单脚本题


   写出一个简单的数据处理脚本,或者运维脚本(会的就自己写,不会的就百度搜,或者求救于小伙伴)


  1. 面试


  1. 人事面试


聊基本情况,聊工作经历,聊人生价值观,聊对工作的态度,聊方方面面,就是不聊技术


请事先准备好针对你个人基本情况的面试题


1、比如你原来在上海,为何10月份来北京找工作?

2、比如工作经历中,有4个月是不上班的,怎么解释?

.....


  1. ·手写代码


也就是做题


当然技术面试过程中,也有可能会出现手写代码的问题


经典手写代码:


  • 快速排序和归并排序,冒泡排序(优先级由高到低)
  • 一个设计模式的实现:比如单例,比如代理,比如装饰器
  • 多线程相关,比如两个线程交替执行
  • java,mapreduce,scala,spark的wordcount
  • 画出你的项目的架构图 或者 数据处理流程架构图


  1. 技术经理面试


基本只聊技术。


基本套路:


  • 先自我介绍
  • 然后介绍项目
  • 从项目入手
  • 先聊业务
  • 再切入到技术点
  • 问如何实现、项目结构、数据处理流程
  • 问遇到过什么难题,怎么解决的,怎么发现的和怎么避免
  • 问相类似的场景,如何做技术选型
  • 问相类似的突发情况,应该怎么决策快速解决问题

 

   考察广度的同时,也会考察深度


通俗的说,也就是会在不同的方向,不同的领域问各种问题,然后针对你能回答的问题,就深入探讨,以此得知你对这门技术的掌握程度


   所以:


   考察广度,就是看你的技术领域分布

   考察深度,就是看你你对这个技术掌握程度如何

 

   总体来说:


  • 聊业务
  • 聊技术
  • 聊问题
  • 聊解决方案
  • ....


  1. CTO/技术架构师等面试(如果过了技术经理面试)


   到了这种级别的面试,一般考察技术的就少了。


   更多的是考察发展,眼光更长远的,考察你的职业生涯规划,考察你的价值观,考察你是否符合公司的长期发展战略


   能了解公司更多信息,就切合公司实际去描述


   如果不了解公司的,那就尽量按照通用套路说


  1. 机试


少数场景会有的。但是不要慌。按照自己的本事来。


有些是现场的,这种很少。有些是给出需求之后让你回来之后自己做。


  1. 面试考察方式


  1. 知识广度


编程语言方向


   java是重点(重中之重),其次:scala、python

   java中的重点考察方向:

       集合(优缺点,底层实现,更好的替代方案,如何根据场景选择和使用)

       并发(锁,JMM,各种关键字(volite),技术点,线程池,......)

       面向对象

 

  数据库方向


   mysql是重点,其次是hbase,redis

   sql语句的编写和优化就不说了,没有不考查的

   Hadoop体系/Spark体系

   架构原理

   工作机制

   典型的常见流程

   某个功能的详细分析

   问题和运维难点

   集群规模/集群规划

   任务多少

   任务运行总时长

   每天数据量

   总数据量

   多少条记录

   每条记录多大

   每条记录多少个字段

   hive的总表数等等

 

   其他知识:

       ElasticSearch

       Flink

       机器学习

       架构

       优化

       源码

       数据结构

       算法

 

  1. 知识深度


追根究底的问各种你答的上来的东西的底层实现细节,直到你答不上来为止,或者到他满意为止  


关于HashMap的问题:


  • 什么是HashMap,能否自己实现一个?
  • 什么时候使用HashMap,有没有替代品?有没有什么好的hasmap使用经验?
  • HashMap和HashTable的区别?优缺点?如何选择在那种场景使用?有没有更好的map实现类?
  • 你知道HashMap的内部数据结构么?/   put和get操作的原理么?
  • HashMap的初始长度和扩容策略是怎样的?(什么时候触发扩容,扩大到多少,扩容的时候要考虑什么问题?)
  • HashMap初始化传入的容量参数的值就是HashMap实际分配的空间么?
  • HashMap解决hash冲突的策略是什么?
  • HashMap能同步/线程安全么?怎么做?
  • 了解HashMap的条件竞争么?
  • JDK7和JDK8的hashmap一样么?
  • HashMap的key的hash计算规则是怎样的?
  • HashMap的key有什么要求?为什么最好是String或者Integer这种类型呢?为什么不要是自定义对象呢?
  • 了解Hash攻击么?
  • 了解ConcurrentHashMap么?了解他的工作原理么?和HashMap相比较,优势在哪里?


  1. 面试过程最关键的是什么?
  2. 不是你说了什么,而是你怎么说
  3. 大大方方的聊,放松
  4. 面试要点
  5. 乐观开朗,不让要人觉得跟你很难交流,要善于交流,善于倾听

   别人说的合理的给予赞同和钦佩

   别人说的你不赞同的你不要反对,你可以用另外一种方式表现出你的看法和意见,这是讨论和交流,不是针锋相对

  1. 积极向上,所有人都希望融入团队的新人都能给团队增添活力,带给团队乐趣,大家轻松工作,愉快生活
  2. 上进好学,不是说别人一说到不会的,你就说我会去学的,而是要表现出我曾经就是这么学过来的
  3. 有礼貌有情商有智商,不要看起来傻傻的没见过世面一样的,不妄自菲薄,但是也要谦卑,要表现出我有货,但是知道自己不够,自己正在努力
  4. 面试要注意引导。尽量把面试官往你擅长的领域去引导。
  5. 关于回答问题,记住,如果不懂这个问题,可以让面试官再叙述一遍的。如果是真回答不上来,就真诚的回答说不知道,不了解,不太清楚。如果你发现你回答的某些问题的答案,面试官在质疑你,你也不要质疑自己。就一口咬死就是这样的。当然不能是离谱的答案还要坚持。
  6. 总之一切随机应变
  7. 面试技巧


  1. 六个常见问题


  1. 你的优点是什么?


   大胆的说出自己各个方面的优势和特长


不要写消遣类的爱好,比如爬上,唱歌看电影


  1. 你的缺点是什么?


   不要谈自己真实问题;用“缺点”衬托自己的优点


  1. 你的离职原因是什么?


  • 不说前东家坏话,哪怕被伤过
  • 合情合理合法
  • 不要说超过1个以上的原因


  1. 您对薪资的期望是多少?


  • 非终面不深谈薪资
  • 只说区间,不说具体数字
  • 底线是不低于当前薪资
  • 非要具体数字,区间取中间值,或者当前薪资的+20%


  1. 您还有什么想问的问题?


  • 这是体现个人眼界和层次的问题
  • 问题本身不在于面试官想得到什么样的答案,而在于你跟别的应聘者的对比
  • 标准答案:


公司希望我入职后的3-6个月内,给公司解决什么样的问题


公司(或者对这个部门)未来的战略规划是什么样子的?


  1. 您最快多长时间能入职?

   一周左右,如果公司需要,可以适当提前

 

  1. 两个注意事项

 

  1. 职业化的语言
  2. 职业化的形象

 

  1. 自我介绍(控制在4分半以内,不超过5分钟)
  1. 个人基本信息
  2. 工作履历

   时间、公司名称、任职岗位、主要工作内容、工作业绩、离职原因


  1. 深度沟通(也叫压力面试)

   刨根问底下沉式追问(注意是下沉式,而不是发散式的)

   基本技巧:往自己熟悉的方向说


  1. 手写代码


  1. 冒泡排序


/**

 * 冒泡排序 时间复杂度 O(n^2) 空间复杂度O(1)

 */

  public class BubbleSort {

    public static void bubbleSort(int[] data) {

        System.out.println("开始排序");

        int arrayLength = data.length;

        for (int i = 0; i < arrayLength - 1; i++) {

            boolean flag = false;

            for (int j = 0; j < arrayLength - 1 - i; j++) {

                if(data[j] > data[j + 1]){

                    int temp = data[j + 1];

                    data[j + 1] = data[j];

                    data[j] = temp;

                    flag = true;

                }

            }

            System.out.println(java.util.Arrays.toString(data));

            if (!flag)

                break;

        }

    }

    public static void main(String[] args) {

        int[] data = { 9, -16, 21, 23, -30, -49, 21, 30, 30 };

        System.out.println("排序之前:\n" + java.util.Arrays.toString(data));

        bubbleSort(data);

        System.out.println("排序之后:\n" + java.util.Arrays.toString(data));

    }

}


  1. 二分查找

 

实现代码:


/**

 * 二分查找 时间复杂度O(log2n);空间复杂度O(1)

 */

  def binarySearch(arr:Array[Int],left:Int,right:Int,findVal:Int): Int={

  if(left>right){//递归退出条件,找不到,返回-1

    -1

  }

  val midIndex = (left+right)/2

  

  if (findVal < arr(midIndex)){//向左递归查找

    binarySearch(arr,left,midIndex,findVal)

  }else if(findVal > arr(midIndex)){//向右递归查找

    binarySearch(arr,midIndex,right,findVal)

  }else{//查找到,返回下标

    midIndex

  }

}


拓展需求:当一个有序数组中,有多个相同的数值时,如何将所有的数值都查找到。

代码实现如下:


/*

{1,8, 10, 89, 1000, 1000,1234} 当一个有序数组中,有多个相同的数值时,如何将所有的数值都查找到,比如这里的 1000.

//分析

1. 返回的结果是一个可变数组 ArrayBuffer

2. 在找到结果时,向左边扫描,向右边扫描 [条件]

3. 找到结果后,就加入到ArrayBuffer

 */

  def binarySearch2(arr: Array[Int], l: Int, r: Int,

                  findVal: Int): ArrayBuffer[Int] = {

  

  //找不到条件?

  if (l > r) {

    return ArrayBuffer()

  }

  

  val midIndex = (l + r) / 2

  val midVal = arr(midIndex)

  if (midVal > findVal) {

    //向左进行递归查找

    binarySearch2(arr, l, midIndex - 1, findVal)

  } else if (midVal < findVal) { //向右进行递归查找

    binarySearch2(arr, midIndex + 1, r, findVal)

  } else {

    println("midIndex=" + midIndex)

    //定义一个可变数组

    val resArr = ArrayBuffer[Int]()

    //向左边扫描

    var temp = midIndex - 1

    breakable {

      while (true) {

        if (temp < 0 || arr(temp) != findVal) {

          break()

        }

        if (arr(temp) == findVal) {

          resArr.append(temp)

        }

        temp -= 1

      }

    }

    //将中间这个索引加入

    resArr.append(midIndex)

    //向右边扫描

    temp = midIndex + 1

    breakable {

      while (true) {

        if (temp > arr.length - 1 || arr(temp) != findVal) {

          break()

        }

        if (arr(temp) == findVal) {

          resArr.append(temp)

        }

        temp += 1

      }

    }

    return resArr

  }

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
相关文章
|
7月前
|
SQL 大数据
常见大数据面试SQL-每年总成绩都有所提升的学生
一张学生成绩表(student_scores),有year-学年,subject-课程,student-学生,score-分数这四个字段,请完成如下问题: 问题1:每年每门学科排名第一的学生 问题2:每年总成绩都有所提升的学生
|
8月前
|
分布式计算 监控 大数据
《吊打面试官》- 大数据工程师50道中大厂面试真题保姆级详解
《吊打面试官》- 大数据工程师50道中大厂面试真题保姆级详解
119 1
《吊打面试官》- 大数据工程师50道中大厂面试真题保姆级详解
|
8月前
|
缓存 运维 NoSQL
面试分享:Redis在大数据环境下的缓存策略与实践
【4月更文挑战第10天】探索Redis在大数据缓存的关键作用,本文分享面试经验及必备知识点。聚焦Redis数据结构(String、List、Set、Hash、Sorted Set)及其适用场景,缓存策略(LRU、LFU、TTL)与过期机制,集群和数据分片,以及性能优化和运维技巧。通过代码示例深入理解,助你面试成功,构建高效缓存服务。
203 4
|
8月前
|
SQL 分布式计算 算法
程序员必备的面试技巧——大数据工程师面试必备技能
程序员必备的面试技巧——大数据工程师面试必备技能
125 0
|
8月前
|
移动开发 前端开发 JavaScript
【前端面试】前端面试题300道~~熬夜吐血整理,2024年最新大厂面试经验分享稿
【前端面试】前端面试题300道~~熬夜吐血整理,2024年最新大厂面试经验分享稿
|
5月前
|
存储 Java
【IO面试题 四】、介绍一下Java的序列化与反序列化
Java的序列化与反序列化允许对象通过实现Serializable接口转换成字节序列并存储或传输,之后可以通过ObjectInputStream和ObjectOutputStream的方法将这些字节序列恢复成对象。
|
2月前
|
存储 缓存 算法
面试官:单核 CPU 支持 Java 多线程吗?为什么?被问懵了!
本文介绍了多线程环境下的几个关键概念,包括时间片、超线程、上下文切换及其影响因素,以及线程调度的两种方式——抢占式调度和协同式调度。文章还讨论了减少上下文切换次数以提高多线程程序效率的方法,如无锁并发编程、使用CAS算法等,并提出了合理的线程数量配置策略,以平衡CPU利用率和线程切换开销。
面试官:单核 CPU 支持 Java 多线程吗?为什么?被问懵了!
|
2月前
|
存储 算法 Java
大厂面试高频:什么是自旋锁?Java 实现自旋锁的原理?
本文详解自旋锁的概念、优缺点、使用场景及Java实现。关注【mikechen的互联网架构】,10年+BAT架构经验倾囊相授。
大厂面试高频:什么是自旋锁?Java 实现自旋锁的原理?
|
2月前
|
存储 缓存 Java
大厂面试必看!Java基本数据类型和包装类的那些坑
本文介绍了Java中的基本数据类型和包装类,包括整数类型、浮点数类型、字符类型和布尔类型。详细讲解了每种类型的特性和应用场景,并探讨了包装类的引入原因、装箱与拆箱机制以及缓存机制。最后总结了面试中常见的相关考点,帮助读者更好地理解和应对面试中的问题。
78 4
|
3月前
|
算法 Java 数据中心
探讨面试常见问题雪花算法、时钟回拨问题,java中优雅的实现方式
【10月更文挑战第2天】在大数据量系统中,分布式ID生成是一个关键问题。为了保证在分布式环境下生成的ID唯一、有序且高效,业界提出了多种解决方案,其中雪花算法(Snowflake Algorithm)是一种广泛应用的分布式ID生成算法。本文将详细介绍雪花算法的原理、实现及其处理时钟回拨问题的方法,并提供Java代码示例。
98 2