备案控制台

开发者社区大数据文章正文

大数据面试题百日更新_Hadoop专题(Day04)

2023-12-22 87

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

日志服务 SLS，月写入数据量 50GB 1个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介： 大数据面试题百日更新_Hadoop专题(Day04)

5. Secondary NameNode 了解吗，它的工作机制是怎样的

Secondary NameNode 是合并 NameNode 的 edit logs 到 fsimage 文件中；它的具体工作机制：

（1）Secondary NameNode 询问 NameNode 是否需要 checkpoint。直接带回 NameNode 是否检查结果

（2）Secondary NameNode 请求执行 checkpoint

（3）NameNode 滚动正在写的 edits 日志

（4）将滚动前的编辑日志和镜像文件拷贝到 Secondary NameNode

（5）Secondary NameNode 加载编辑日志和镜像文件到内存，并合并

（6）生成新的镜像文件 fsimage.chkpoint

（7）拷贝 fsimage.chkpoint 到 NameNode

（8）NameNode 将 fsimage.chkpoint 重新命名成 fsimage 所以如果 NameNode 中的元数据丢失，是可以从 Secondary NameNode 恢复一部分元数据信息的，但不是全部，因为 NameNode 正在写的 edits 日志还没有拷贝到 Secondary NameNode，这部分恢复不了

另一容易理解的版本:

1、 secnonaryNN通知NameNode切换editlog，生成edits.new

2、secondaryNN从NameNode中获得FSImage和editlog(通过http方式),将FSImage载入内存，然后开始合并editlog，合并之后成为新的fsimage

3、secondaryNN将新的fsimage.ckpt发回给NameNode

4、NameNode用新的fsimage.ckpt替换旧的fsimage

5、NameNode用新的edits.new替换旧的edits

文章标签：

云原生大数据计算服务 MaxCompute

日志服务

分布式计算

Hadoop

大数据

关键词：

hadoop大数据

大数据hadoop

云原生大数据计算服务 MaxCompute hadoop

云原生大数据计算服务 MaxCompute面试

大数据面试

相关实践学习

基于MaxCompute的热门话题分析

Apsara Clouder大数据专项技能认证配套课程：基于MaxCompute的热门话题分析

Maynor

目录

相关文章

Echo_Wish

|

9月前

|

存储分布式计算 Hadoop

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

Echo_Wish

423 79 80

栈江湖

|

12月前

|

存储分布式计算大数据

Flume+Hadoop：打造你的大数据处理流水线

本文介绍了如何使用Apache Flume采集日志数据并上传至Hadoop分布式文件系统（HDFS）。Flume是一个高可用、可靠的分布式系统，适用于大规模日志数据的采集和传输。文章详细描述了Flume的安装、配置及启动过程，并通过具体示例展示了如何将本地日志数据实时传输到HDFS中。同时，还提供了验证步骤，确保数据成功上传。最后，补充说明了使用文件模式作为channel以避免数据丢失的方法。

栈江湖

581 4 4

土木林森

|

存储分布式计算 Hadoop

数据湖技术：Hadoop与Spark在大数据处理中的协同作用

【10月更文挑战第27天】在大数据时代，数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件，通过HDFS存储数据和Spark进行高效计算，实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践，包括数据存储、处理、安全和可视化等方面，展示了它们在实际应用中的协同效应。

土木林森

552 2 2

土木林森

|

存储分布式计算 Hadoop

数据湖技术：Hadoop与Spark在大数据处理中的协同作用

【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用，通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理，确保高可靠性和容错性；Spark则凭借其高性能和丰富的API，进行深度分析和机器学习，实现高效的批处理和实时处理。

土木林森

457 1 1

Echo_Wish

|

3月前

|

机器学习/深度学习传感器分布式计算

数据才是真救命的：聊聊如何用大数据提升灾难预警的精准度

数据才是真救命的：聊聊如何用大数据提升灾难预警的精准度

Echo_Wish

216 14 14

1062754335

|

5月前

|

数据采集分布式计算 DataWorks

ODPS在某公共数据项目上的实践

本项目基于公共数据定义及ODPS与DataWorks技术，构建一体化智能化数据平台，涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理，强化数据安全与流通，提升业务效率与决策能力，助力数字化改革。

1062754335

176 4 4

Echo_Wish

|

4月前

|

机器学习/深度学习运维监控

运维不怕事多，就怕没数据——用大数据喂饱你的运维策略

运维不怕事多，就怕没数据——用大数据喂饱你的运维策略

Echo_Wish

168 0 0

LucianaiB

|

5月前

|

分布式计算 DataWorks 数据处理

在数据浪潮中前行：记录一次我与ODPS的实践、思考与展望

本文详细介绍了在 AI 时代背景下，如何利用阿里云 ODPS 平台（尤其是 MaxCompute）进行分布式多模态数据处理的实践过程。内容涵盖技术架构解析、完整操作流程、实际部署步骤以及未来发展方向，同时结合 CSDN 博文深入探讨了多模态数据处理的技术挑战与创新路径，为企业提供高效、低成本的大规模数据处理方案。

LucianaiB

306 3 3

Echo_Wish

|

3月前

|

传感器人工智能监控

数据下田，庄稼不“瞎种”——聊聊大数据如何帮农业提效

数据下田，庄稼不“瞎种”——聊聊大数据如何帮农业提效

Echo_Wish

148 14 14

游客hp4x2qkhydglu

|

2月前

|

传感器人工智能监控

拔俗多模态跨尺度大数据AI分析平台：让复杂数据“开口说话”的智能引擎

在数字化时代，多模态跨尺度大数据AI分析平台应运而生，打破数据孤岛，融合图像、文本、视频等多源信息，贯通微观与宏观尺度，实现智能诊断、预测与决策，广泛应用于医疗、制造、金融等领域，推动AI从“看懂”到“会思考”的跃迁。

游客hp4x2qkhydglu

246 0 0

热门文章

最新文章

基于python大数据的台风灾害分析及预测系统

基于python大数据的青少年网络使用情况分析及预测系统

基于Python大数据的热门游戏推荐系统

当“爆款书”遇上大数据：出版业的老路，正在被算法改写

Redis常见面试题全解析

提供一些准备Java八股文面试的建议

面试性能测试总被刷？学员真实遇到的高频问题全解析！

Java常见面试题：泛型中“T”与“？”的区别

2020这一年总结出来的Java面试题，常频面试题大汇总~

CSDN社区分享面试经历活动作品3——来北京找工作有感

Ubuntu22.04下搭建Hadoop3.3.6+Hbase2.5.6+Phoenix5.1.3开发环境的指南

CentOS中构建高可用Hadoop 3集群

“Hadoop整不明白，数据分析就白搭？”——教你用Hadoop撸清大数据处理那点事

Hadoop生态系统：从小白到老司机的入门指南

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

Dataphin功能Tips系列（41）-Hadoop集群管理

【赵渝强老师】史上最详细：Hadoop HDFS的体系架构

从Excel到Hadoop：数据规模的进化之路

MPP 架构与 Hadoop 架构技术选型指南

基于Java的Hadoop文件处理系统：高效分布式数据解析与存储

相关课程

更多

大数据Spark2020最新课程（知识精讲与实战演练）第二阶段

大数据Spark2020版（知识精讲与实战演练）第三阶段

大数据Spark2020版（知识精讲与实战演练）第四阶段

Java面试疑难点解析 - 面试技巧及语言基础

Java面试疑难点解析 - Java Web开发

Java面试疑难点解析 - 系统架构及项目设计

相关电子书

更多

阿里云技术面试红宝书

超全算法笔试-模拟题精解合集

程序员面试宝典

下一篇

全面了解阿里云OSS使用方法