hadoop 小结

简介: 1、创建hdfs文件 如果Apache hadoop版本是0.x 或者1.x,   bin/hadoop hdfs fs -mkdir -p /in   bin/hadoop hdfs fs  -put /home/du/input   in 如果Apache hadoop版本是2.x.  bin/hdfs  dfs  -mkdir -p /in  #创建hdfs文件 创建源文件

1、创建hdfs文件

如果Apache hadoop版本是0.x 或者1.x,

  bin/hadoop hdfs fs -mkdir -p /in
  bin/hadoop hdfs fs  -put /home/du/input   in


如果Apache hadoop版本是2.x.

  bin/hdfs  dfs  -mkdir -p /in  #创建hdfs文件

创建源文件/home/du/input,并写入几个单词如 hello world

touch input

vim input

把源文件倒入hdfs

bin/hdfs  dfs   -put /home/du/input   /in #   注意:/home/du/input是源文件所在目录不是hdfs文件, /in是hdfs文件目录




2、查看

bin/hdfs dfs -ls in/*


3、运行mapreduce,查看单词个数


# *.jar是mapreduce程序,wordcount是主类,in是hdfs输入目录,out是输出目录
bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount in out  


查看单词个数
 bin/hdfs dfs -cat ./out/*






4、从hdfs中复制到linux

bin/hdfs dfs -get in ../lhy




5、删除hdfs的内容,会自动删除block中的数据

bin/hdfs dfs -rmr abc


6、当前状态

bin/hdfs dfsadmin -report
目录
相关文章
|
SQL 存储 分布式计算
hadoop的特点
hadoop的特点
|
4月前
|
分布式计算 资源调度 Hadoop
Hadoop 2.0 与 Hadoop 1.x 有何不同?
【8月更文挑战第12天】
80 4
|
SQL 数据采集 分布式计算
Hadoop01【介绍】
HADOOP是apache旗下的一套开源软件平台,HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理
Hadoop01【介绍】
|
分布式计算 资源调度 Java
Hadoop3.2.0使用详解
Hadoop3.2.0使用详解1.概述Hadoop3已经发布很久了,迭代集成的一些新特性也是很有用的。截止本篇博客书写为止,Hadoop发布了3.2.0。接下来,笔者就为大家分享一下在使用Hadoop3中遇到到一些问题,以及解决方法。
3601 0
|
分布式计算 资源调度 Hadoop
|
分布式计算 资源调度 监控
|
分布式计算 Java Hadoop
|
分布式计算 NoSQL 大数据
|
分布式计算 大数据 Hadoop