Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!

1. Hadoop 基本命令

1.1 查看版本信息

hadoop version

用于检查 Hadoop 的版本信息以及编译信息。

1.2 启动和停止 Hadoop 集群

start-dfs.sh
start-yarn.sh
stop-dfs.sh
stop-yarn.sh

start-dfs.shstop-dfs.sh 分别用于启动和停止 HDFS,而 start-yarn.shstop-yarn.sh 用于管理 YARN 服务。

1.3 格式化 HDFS

hdfs namenode -format

首次安装 Hadoop 后,需要格式化 HDFS。这会清除所有数据,因此仅在初次设置或重置集群时执行。

2. HDFS 相关命令

2.1 HDFS 目录与文件管理

  • 列出目录内容:
hdfs dfs -ls /path/to/directory
  • 创建新目录:
hdfs dfs -mkdir /path/to/new_directory
  • 上传文件到 HDFS:
hdfs dfs -put /local/path/to/file /hdfs/path/to/destination
  • 从 HDFS 下载文件:
hdfs dfs -get /hdfs/path/to/file /local/path/to/destination
  • 删除文件或目录:
hdfs dfs -rm /hdfs/path/to/file
hdfs dfs -rm -r /hdfs/path/to/directory

2.2 查看文件内容

hdfs dfs -cat /hdfs/path/to/file

用于查看HDFS中文件的内容。

2.3 文件系统检查

hdfs fsck /

检查 HDFS 的健康状况,显示文件、块和副本的分布信息。

3. MapReduce 相关命令

3.1 运行 MapReduce 示例程序

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar wordcount /input /output

运行 Hadoop 提供的示例程序,这里以 wordcount 为例。

3.2 查看 MapReduce 作业状态

hadoop job -status job_id

用于查询作业的当前状态。

4. YARN 相关命令

4.1 列出所有运行中的应用

yarn application -list

列出所有当前正在 YARN 上运行的应用程序。

4.2 杀死 YARN 应用

yarn application -kill application_id

停止指定的 YARN 应用程序。

4.3 查看应用程序日志

yarn logs -applicationId application_id

获取特定应用程序的日志信息。

5. 其他常用命令

5.1 查看 Hadoop 集群报告

hdfs dfsadmin -report

显示 HDFS 集群的整体健康状况和配置状态。

5.2 安全模式操作

  • 进入安全模式:
hdfs dfsadmin -safemode enter
  • 离开安全模式:
hdfs dfsadmin -safemode leave
  • 查看安全模式状态:
hdfs dfsadmin -safemode get

总结

以上命令涵盖了日常使用 Hadoop 时最常见的操作,掌握这些命令可以帮助你更轻松地管理和维护 Hadoop 集群。通过熟练使用这些命令,你将能够更加自信地应对各种 Hadoop 相关的任务。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
19天前
|
存储 分布式计算 资源调度
Hadoop入门基础(三):如何巧妙划分Hadoop集群,全面提升数据处理性能?
Hadoop入门基础(三):如何巧妙划分Hadoop集群,全面提升数据处理性能?
|
11天前
|
资源调度 分布式计算 Hadoop
使用YARN命令管理Hadoop作业
本文介绍了如何使用YARN命令来管理Hadoop作业,包括查看作业列表、检查作业状态、杀死作业、获取作业日志以及检查节点和队列状态等操作。
17 1
使用YARN命令管理Hadoop作业
|
14天前
|
图形学 数据可视化 开发者
超实用Unity Shader Graph教程:从零开始打造令人惊叹的游戏视觉特效,让你的作品瞬间高大上,附带示例代码与详细步骤解析!
【8月更文挑战第31天】Unity Shader Graph 是 Unity 引擎中的强大工具,通过可视化编程帮助开发者轻松创建复杂且炫酷的视觉效果。本文将指导你使用 Shader Graph 实现三种效果:彩虹色渐变着色器、动态光效和水波纹效果。首先确保安装最新版 Unity 并启用 Shader Graph。创建新材质和着色器图谱后,利用节点库中的预定义节点,在编辑区连接节点定义着色器行为。
55 0
|
19天前
|
分布式计算 资源调度 Hadoop
Hadoop入门基础(四):Hadoop启动踩坑记录
Hadoop入门基础(四):Hadoop启动踩坑记录
|
19天前
|
分布式计算 资源调度 Hadoop
Hadoop入门基础(二):Hadoop集群安装与部署详解(超详细教程)(二)
Hadoop入门基础(二):Hadoop集群安装与部署详解(超详细教程)(二)
|
19天前
|
分布式计算 Ubuntu Hadoop
Hadoop入门基础(二):Hadoop集群安装与部署详解(超详细教程)(一)
Hadoop入门基础(二):Hadoop集群安装与部署详解(超详细教程)(一)
|
14天前
|
SQL 存储 分布式计算
MaxCompute 入门:大数据处理的第一步
【8月更文第31天】在当今数字化转型的时代,企业和组织每天都在产生大量的数据。有效地管理和分析这些数据变得至关重要。阿里云的 MaxCompute(原名 ODPS)是一个用于处理海量数据的大规模分布式计算服务。它提供了强大的存储能力以及丰富的数据处理功能,让开发者能够快速构建数据仓库、实时报表系统、数据挖掘等应用。本文将介绍 MaxCompute 的基本概念、架构,并演示如何开始使用这一大数据处理平台。
88 0
|
17天前
|
SQL 分布式计算 数据可视化
基于Hadoop的大数据可视化方法
【8月更文第28天】在大数据时代,有效地处理和分析海量数据对于企业来说至关重要。Hadoop作为一个强大的分布式数据处理框架,能够处理PB级别的数据量。然而,仅仅完成数据处理还不够,还需要将这些数据转化为易于理解的信息,这就是数据可视化的重要性所在。本文将详细介绍如何使用Hadoop处理后的数据进行有效的可视化分析,并会涉及一些流行的可视化工具如Tableau、Qlik等。
50 0
|
1月前
|
存储 分布式计算 Hadoop
|
20天前
|
存储 SQL 分布式计算
Hadoop生态系统概述:构建大数据处理与分析的基石
【8月更文挑战第25天】Hadoop生态系统为大数据处理和分析提供了强大的基础设施和工具集。通过不断扩展和优化其组件和功能,Hadoop将继续在大数据时代发挥重要作用。