刚入职场的菜鸟,这些大数据知识点,你必须掌握了!

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 刚入职场的菜鸟,这些大数据知识点,你必须掌握了!

正文


一、Hadoop入门


1、常用端口号


hadoop3.x


HDFS NameNode 内部通常端口:8020/9000/9820


HDFS NameNode 对用户的查询端口:9870


Yarn查看任务运行情况的:8088


历史服务器:19888


hadoop2.x


HDFS NameNode 内部通常端口:8020/9000


HDFS NameNode 对用户的查询端口:50070


Yarn查看任务运行情况的:8088


历史服务器:19888


2、常用的配置文件


3.x core-site.xml  hdfs-site.xml  yarn-site.xml  mapred-site.xml workers


2.x core-site.xml  hdfs-site.xml  yarn-site.xml  mapred-site.xml slaves


二、HDFS


1、HDFS文件块大小(面试重点)


硬盘读写速度


在企业中  一般128m(中小公司)   256m (大公司)


2、HDFS的Shell操作(开发重点)


3、HDFS的读写流程(面试重点)


三、Map Reduce


1、InputFormat


1)默认的是TextInputformat  kv  key偏移量,v :一行内容


2)处理小文件CombineTextInputFormat 把多个文件合并到一起统一切片


2、Mapper


setup()初始化;  map()用户的业务逻辑; clearup() 关闭资源;


3、分区


默认分区HashPartitioner ,默认按照key的hash值%numreducetask个数


自定义分区


4、排序


1)部分排序  每个输出的文件内部有序。


2)全排序:  一个reduce ,对所有数据大排序。


3)二次排序:  自定义排序范畴, 实现 writableCompare接口, 重写compareTo方法


5、Combiner


前提:不影响最终的业务逻辑(求和 没问题   求平均值)        


提前聚合map  => 解决数据倾斜的一个方法


6、Reducer


用户的业务逻辑;


setup()初始化;


reduce()用户的业务逻辑;


clearup() 关闭资源;


7、OutputFormat


1)默认TextOutputFormat  按行输出到文件


2)自定义


四、Yarn


1、Yarn的工作机制(面试题)


2、Yarn的调度器


1)FIFO/容量/公平


2)apache 默认调度器  容量; CDH默认调度器 公平


3)公平/容量默认一个default ,需要创建多队列


4)中小企业:hive  spark flink  mr


5)中大企业:业务模块:登录/注册/购物车/营销


6)好处:解耦  降低风险  11.11  6.18  降级使用


7)每个调度器特点:

相同点:支持多队列,可以借资源,支持多用户


不同点:

容量调度器:优先满足先进来的任务执行;


公平调度器,在队列里面的任务公平享有队列资源


8)生产环境怎么选:

中小企业,对并发度要求不高,选择容量


中大企业,对并发度要求比较高,选择公平。


相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
存储 缓存 负载均衡
【2022持续更新】大数据最全知识点整理-HBase篇
【2022持续更新】大数据最全知识点整理-HBase篇
1438 0
【2022持续更新】大数据最全知识点整理-HBase篇
|
大数据
数据治理专业认证CDMP学习笔记(思维导图与知识点)- 第14章大数据与数据科学篇
数据治理专业认证CDMP学习笔记(思维导图与知识点)- 第14章大数据与数据科学篇
192 0
|
存储 数据采集 SQL
知识点!典型的工业企业大数据分析平台解决方案(含数据治理)
当前,工业企业产生的数据与日俱增,如何利用大数据为企业产生驱动力、竞争力成为工业企业面临的重要问题。
知识点!典型的工业企业大数据分析平台解决方案(含数据治理)
|
存储 缓存 算法
【2022持续更新】大数据最全知识点整理-Java篇
【2022持续更新】大数据最全知识点整理-Java篇
247 0
【2022持续更新】大数据最全知识点整理-Java篇
|
消息中间件 存储 负载均衡
【2022持续更新】大数据最全知识点整理-Kafka篇
【2022持续更新】大数据最全知识点整理-Kafka篇
384 0
【2022持续更新】大数据最全知识点整理-Kafka篇
|
SQL 数据采集 存储
大数据知识点总结
数据仓库:英文Data WareHouse,数据仓库是面向主题,为分析数据而设计的,是一个各种数据(包括历史数据和当前数据)的中心存储系统,主要服务于商业智能(也就是BI)和企业决策管理。
558 0
大数据知识点总结
|
存储 SQL NoSQL
一篇文章搞定一个大数据组件:kudu知识点全集
一篇文章搞定一个大数据组件:kudu知识点全集
一篇文章搞定一个大数据组件:kudu知识点全集
|
消息中间件 缓存 分布式计算
大数据面试需要掌握的知识点
大数据常见考察知识点
193 0
|
机器学习/深度学习 分布式计算 数据可视化
大数据入门知识点
大数据入门知识点
213 0
|
存储 分布式计算 监控
好程序员大数据纪实:HBase知识点集中总结
好程序员大数据纪实: HBase知识点集中总结, HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。    与 FUJITSU Cliq等商用大数据产品不同,HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来处理Bigtable中的海量数据,HBase同样利用Hadoop MapReduce来处理HBase中
154 0

热门文章

最新文章