20180613早课记录30-Hadoop

简介: 今天来讲Hadoop

1.hadoop是什么


狭义上说就是hdfs、mr、YARN组成的hadoop,广义上指的是整个生态圈


2.hadoop三大组件,分别做什么


HDFS 存储

MapReduce计算

Yarn资源调度


3.hdfs默认块大小多少


128m


4.副本三份,块128M,一个文件260M,多少块,实际存储多少


9个块  780M


5.hdfs的nn snn dn启动顺序是什么


nn dn snn


6.hdfs的读流程 ,那幅图有印象没



7.同之,hdfs的写流程,是不是所有块的第一个副本写完,再统一去写第二个副本


写顺序在不出错的情况下,是管道内顺序把每个块写到指定数量的副本里,然后再继续下个块


8.hdfs读写谁是input 谁是out


写是outputstream 读是inputstream


9.NN节点是做什么的?


存储元数据


10.snn是做什么的


冷备份 定时合并镜像和日志文件


11.副本放置策略,那幅图有没有印象?


副本就近原则先备 当前节点--》同机柜节点--》跨机柜节点--》跨机房节点


12.hdfs dfs命令和什么命令一样


hadoop fs


13.mr提交流程,来简单说说(我是面试官)


客户端提交job给 Applications Manager 连接Node Manager去申请一个Container的容器,这个容器运行作业的App Mstr的主程序,启动后向App Manager进行注册,然后可以访问URL界面,然后App Mastr向 Resource Scheduler申请资源,拿到一个资源的列表,和对应的NodeManager进行通信,去启动对应的Container容器,去运行 Reduce Task 和 Map Task (两个先后运行顺序随机运行),它们是向App Mstr进行汇报它们的运行状态, 当所有作业运行完成后还需要向Applications Manager进行汇报并注销和关闭


14.hdfs yarn web界面默认端口号多少


50070   8088


15.知不知道,windows也有hosts这个文件?


知道 在C:\Windows\System32\drivers\etc路径下


16.来来来 老生常谈一个问题,敲完命令,not found,你们觉得从该怎么办


首先看看命令有没有打错 然后检查环境变量或者find下 实在没有进行安装

目录
相关文章
|
5月前
|
存储 SQL 分布式计算
Hadoop数据整合
【5月更文挑战第9天】Hadoop数据整合
42 2
|
2月前
|
分布式计算 资源调度 Hadoop
Hadoop 1 与 Hadoop 2 的区别详解
【8月更文挑战第31天】
33 0
|
3月前
|
分布式计算 资源调度 安全
Hadoop停止所有Hadoop服务
【7月更文挑战第20天】
48 2
|
5月前
|
存储 分布式计算 Hadoop
Hadoop数据合并技巧
【5月更文挑战第10天】Hadoop数据合并技巧
83 2
|
5月前
|
存储 分布式计算 监控
Hadoop冗余数据存储
【4月更文挑战第13天】Hadoop的HDFS分布式文件系统通过数据块划分、冗余存储(副本创建)和多样化存储类型提升可靠性与扩展性。NameNode监控副本数量,确保数据安全。使用数据压缩算法节省空间,数据本地化优化提高效率。支持并行处理,实现高效大规模数据处理。
57 1
|
10月前
|
分布式计算 Hadoop Java
简单操作hadoop
简单操作hadoop
51 2
|
SQL 分布式计算 资源调度
hadoop伪分布式安装记录
hadoop伪分布式安装记录
186 0
|
存储 分布式计算 负载均衡
Hadoop常见命令总结
常见基础命令: • 启动Hadoop • 进入HADOOP_HOME目录。 • 执行sh bin/start-all.sh • 关闭Hadoop • 进入HADOOP_HOME目录。 • 执行sh bin/stop-all.sh
543 0
|
存储 资源调度 Java
|
资源调度 容器

相关实验场景

更多
下一篇
无影云桌面