云计算与大数据实验三 HDFS的基本操作(下)

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 云计算与大数据实验三 HDFS的基本操作(下)

6.确保当前输入法在英文状态下后,输入:wq 保存文件并且退出文件

回车后,就可以看到已经退出文件编辑

修改HDFS的hdfs-site.xml文件

hdfs-site.xml文件主要是指定元数据存储目录,数据存储目录,指定备份 Namenode 节点。

1.编辑hdfs-site.xml

root@evassh-10644553:~# vi /opt/hadoop-2.7.1/etc/hadoop/hdfs-site.xml

输入完成该命令后会进入文档内部,如下图 

2.按↓箭头将白色光标移动到如下图标红出所示

3.确保当前输入法在英文状态下后,按下小写i键,按下后如下图标红处所示出现--INSERT--字符,表示已经进入文档编辑模式,可以编辑该文档了

4.按照下图红色框内输入的内容,完成配置 一定要再三核对该内容,否则后面会报错

5.输入完成后,按下键盘上的esc键,退出编辑模式,按下后,可以看到--INSERT--字符已经没有了

6.确保当前输入法在英文状态下后,输入:wq 保存文件并且退出文件 回车后,就可以看到已经退出文件编辑

初始化集群

所谓的初始化集群,就是格式化,生成文件系统。主要目的是:

①创建一个全新的元数据目录

②生成记录元数据的文件 fsimage

③生成集群的相关标识:如集群 ID—clusterID

root@evassh-10644553:~# hadoop namenode -format

在返回结果中看到“successfully”,标志着出初始化成功。初始化成功后,千万不要再次操作。每次初始化都会生成一个新的集群ID,会使DataNode和NameNode中记录的集群ID不一致,两者无法识别。

ssh免密配置

ssh是连接linux主机的方式之一,在启动HDFS相关服务时会创建一个新的链接来连接linux主机,需要配置免密码登录,这样就可以直接启动服务了,不需要输入密码了。

1.生成密钥,连续按三次回车

1. root@evassh-10644553:~# ssh-keygen -t rsa -P ''
2. root@evassh-10644553:~#

2.把id_rsa.pub追加到授权的key里面去

1. root@evassh-10644553:~#cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
2. root@evassh-10644553:~#

3.测试

root@evassh-10644553:~#ssh localhost

在下面标红的地方输入yes 输入完成后没有输入密码提示,就是成功了

启动HDFS并简单查看

1.使用start-dfs.sh命令启动HDFS集群。

1. root@evassh-10644553:~# start-dfs.sh localhost: 
2. starting namenode, logging to /opt/hadoop-2.7.1/logs/hadoop-root-namenode-evassh-10683023.out localhost: 
3. starting datanode, logging to /opt/hadoop-2.7.1/logs/hadoop-root-datanode-evassh-10683023.out Starting secondary namenodes [localhost] localhost: 
4. starting secondarynamenode, logging to /opt/hadoop-2.7.1/logs/hadoop-root-secondarynamenode-evassh-10683023.out 
5. root@evassh-10644553:~#

2.使用JPS命令验证

root@evassh-10644553:~#jps 1328 SecondaryNameNode 979 NameNode 1126 DataNode 1608 Jps

前面的数字为服务的进程号,每次启动进程号都会不同。只要能看到有NameNode、DataNode、SecondaryNameNode这三个进程在线就可以了

3.使用ls命令查看hdfs上面的文件

1. root@evassh-10644553:~#hdfs dfs -ls / 
2. root@evassh-10644553:~#

返回结果为空即正常。

HDFS的常用命令

启动Hadoop

HDFS中创建/usr/output/文件夹;

在本地创建hello.txt文件并添加内容:“HDFS的块比磁盘的块大,其目的是为了最小化寻址开销。”;

hello.txt上传至HDFS/usr/output/目录下;

删除HDFS/user/hadoop目录;

Hadoop上的文件hello.txtHDFS复制到本地/usr/local目录。

四、实验心得

掌握了HDFS(集群的启动start-dfs.sh)启动

会使用Hadoop命令(文件的增////上传/下载)来操作分布式文件系统

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1月前
|
存储 大数据 云计算
大数据与云计算
大数据与云计算
70 2
|
14天前
|
Java 大数据 API
【大数据】HDFS、HBase操作教程(含指令和JAVA API)
【大数据】HDFS、HBase操作教程(含指令和JAVA API)
52 0
【大数据】HDFS、HBase操作教程(含指令和JAVA API)
|
14天前
|
存储 分布式计算 大数据
【大数据】分布式文件系统HDFS
【大数据】分布式文件系统HDFS
35 0
【大数据】分布式文件系统HDFS
|
21天前
|
机器学习/深度学习 存储 算法
云计算和大数据处理
云计算和大数据处理
22 1
|
8天前
|
存储 资源调度 大数据
云计算在大数据分析中的弹性资源调度策略
云计算在大数据分析中的弹性资源调度策略
|
1月前
|
存储 分布式计算 安全
大数据存储技术(2)—— HDFS分布式文件系统
大数据存储技术(2)—— HDFS分布式文件系统
43 0
|
1月前
|
存储 分布式计算 大数据
[AIGC 大数据基础]浅谈hdfs
[AIGC 大数据基础]浅谈hdfs
|
15天前
|
存储 分布式计算 Hadoop
Hadoop Distributed File System (HDFS): 概念、功能点及实战
【6月更文挑战第12天】Hadoop Distributed File System (HDFS) 是 Hadoop 生态系统中的核心组件之一。它设计用于在大规模集群环境中存储和管理海量数据,提供高吞吐量的数据访问和容错能力。
89 4
|
7天前
|
存储 分布式计算 Hadoop
Hadoop的HDFS数据均衡
【6月更文挑战第13天】
20 3
|
14天前
|
存储 分布式计算 安全

热门文章

最新文章