大数据||hadoop分布式部署分发、基本测试及监控

简介: 先看文章大数据||hadoop分布式集群安装分发包括:通过主节点给子节点分发数据。免密形式基本测试包括:创建目录,上传文件、读取文件等HDFSnamenode节点格式化(131)命令bin/hdfs namenode -format说明:只有第一次部署的格式化。

先看文章大数据||hadoop分布式集群安装
分发包括:通过主节点给子节点分发数据。免密形式
基本测试包括:创建目录,上传文件、读取文件等

HDFS

  • namenode节点格式化(131)

命令bin/hdfs namenode -format
说明:只有第一次部署的格式化。后面不要格式化要不datanode节点启动会报错。

  • 启动hdfs

命令:sbin/start-dfs.sh



查看启动结果:jps

  • web页面方式查看

http://hadoop-senior.beifeng.com:50070/dfshealth.html#tab-datanode

  • 常见错误

如果hostname配置的不正确导致无法启动datanode,修改后重启服务
如果slaves 没有配置导致只启动一个datanode。
错误排查方式:查看logs下的对应日志文件。
sbin/stop-dfs.sh 命令执行的日志也可以查看错误。

停止hdfs时错误

  • 测试hdfs

测试命令(创建hdfs系统中文件夹):bin/hdsf dfs -mkdir -p /user/beifeng/temp


查看结果

上传文件测试命令: bin/hdfs dfs -put etc/hadoop/*-site.xml /user/beifeng/temp
向132服务器同步数据时报错


报错

意思就是坏的连接 网络未通你把防火墙一关就好了。(浪费我2个小时时间

  1. 重启后生效
    开启: chkconfig iptables on
    关闭: chkconfig iptables off
  2. 即时生效,重启后失效
    开启: service iptables start
    关闭: service iptables stop
    解决办法添加端口50010。vi /etc/sysconfig/iptables
  • 测试文件上传put

命令:bin/hdfs dfs -put etc/hadoop/*-site.xml /user/root/user/beifeng/


yarn启动

sbin/start-yarn.sh

  • 启动结果正常




测试yarn服务
  • 创建MapReduce的input目录

bin/hdfs dfs -mkdir -p /user/beifeng/mapreduce/wordcount/input
bin/hdfs dfs -ls /user/beifeng/mapreduce/wordcount/input

  • 上传wordcount需要计算的文件

bin/hdfs dfs -put /opt/modules/hadoop-2.5.0/wc.input /user/beifeng/mapreduce/wordcount/input

  • 测试yarn服务上的MapReduce

命令: bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /user/beifeng/mapreduce/wordcount/input /user/beifeng/mapreduce/wordcount/output
查看运行结果
bin/hdfs dfs -text /user/beifeng/mapreduce/wordcount/output/part*




相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
8月前
|
监控 Linux 应用服务中间件
Linux多节点多硬盘部署MinIO:分布式MinIO集群部署指南搭建高可用架构实践
通过以上步骤,已成功基于已有的 MinIO 服务,扩展为一个 MinIO 集群。该集群具有高可用性和容错性,适合生产环境使用。如果有任何问题,请检查日志或参考MinIO 官方文档。作者联系方式vx:2743642415。
2637 57
|
11月前
|
Java 关系型数据库 MySQL
新一代 Cron-Job分布式任务调度平台 部署指南
简单易用、超低延迟,支持用户权限管理、多语言客户端和多租户接入的分布式任务调度平台。 支持任何Cron表达式的任务调度,支持常用的分片和随机策略;支持失败丢弃、失败重试的失败策略;支持动态任务参数。
370 104
|
10月前
|
存储 分布式计算 Hadoop
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
504 79
|
9月前
|
SQL 数据可视化 网络安全
YashanDB分布式可视化部署
本文介绍YashanDB的分布式部署流程,涵盖服务端安装、数据库基本信息与服务器配置、节点信息设置、建库参数调整、环境变量配置及安装结果检查等步骤。通过可视化Web界面操作,详细说明了各环节配置方法和注意事项,确保用户顺利完成数据库集群的搭建与初始化设置。适用于需要分布式数据库部署的场景,提供全面的操作指导。
YashanDB分布式可视化部署
|
10月前
|
运维 Kubernetes Java
Koupleless 助力「人力家」实现分布式研发集中式部署,又快又省!
本文由仁励家网络科技(杭州)有限公司架构师赵云兴、葛志刚撰写,探讨了公司在优化HR SaaS解决方案时遇到的系统资源浪费和运维成本高的问题。通过引入Koupleless框架,成功将模块体积从500M缩减至5M以下,部署时间从6分钟缩短至3分钟,并大幅节省服务器资源。文章详细介绍了Koupleless的部署方案及优化措施,感谢Koupleless团队的专业支持,使人力家实现了多应用合并部署,降低了运维成本。
Koupleless 助力「人力家」实现分布式研发集中式部署,又快又省!
|
10月前
|
运维 Kubernetes Java
Koupleless 助力「人力家」实现分布式研发集中式部署,又快又省!
通过引入Koupleless框架,解决了多应用部署中资源浪费和运维成本高的问题,实现了模块瘦身、快速部署及流量控制优化,大幅降低了服务器资源占用和发布耗时,提升了系统稳定性和运维效率。最终,人力家成功实现了多应用的轻量集中部署,显著减少了运维成本。
 Koupleless 助力「人力家」实现分布式研发集中式部署,又快又省!
|
11月前
|
机器学习/深度学习 自然语言处理 API
阿里云零门槛、轻松部署您的专属 DeepSeek模型体验测试
DeepSeek R1是基于Transformer架构的先进大规模深度学习模型,2025年1月20日发布并开源,遵循MIT License。它在自然语言处理等任务上表现出色,高效提取特征,缩短训练时间。阿里云推出的满血版方案解决了服务器压力问题,提供100万免费token,云端部署降低成本,用户可快速启动体验。虽然回答速度有待提升,但整体表现优异,备受关注。
427 8
|
11月前
|
人工智能 Kubernetes 异构计算
大道至简-基于ACK的Deepseek满血版分布式推理部署实战
大道至简-基于ACK的Deepseek满血版分布式推理部署实战
607 5
|
12月前
|
数据采集 人工智能 分布式计算
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
阿里云推出的MaxFrame是链接大数据与AI的分布式Python计算框架,提供类似Pandas的操作接口和分布式处理能力。本文从部署、功能验证到实际场景全面评测MaxFrame,涵盖分布式Pandas操作、大语言模型数据预处理及企业级应用。结果显示,MaxFrame在处理大规模数据时性能显著提升,代码兼容性强,适合从数据清洗到训练数据生成的全链路场景...
618 5
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!