大数据||hadoop分布式部署分发、基本测试及监控

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 先看文章大数据||hadoop分布式集群安装分发包括:通过主节点给子节点分发数据。免密形式基本测试包括:创建目录,上传文件、读取文件等HDFSnamenode节点格式化(131)命令bin/hdfs namenode -format说明:只有第一次部署的格式化。

先看文章大数据||hadoop分布式集群安装
分发包括:通过主节点给子节点分发数据。免密形式
基本测试包括:创建目录,上传文件、读取文件等

HDFS

  • namenode节点格式化(131)

命令bin/hdfs namenode -format
说明:只有第一次部署的格式化。后面不要格式化要不datanode节点启动会报错。

  • 启动hdfs

命令:sbin/start-dfs.sh



查看启动结果:jps

  • web页面方式查看

http://hadoop-senior.beifeng.com:50070/dfshealth.html#tab-datanode

  • 常见错误

如果hostname配置的不正确导致无法启动datanode,修改后重启服务
如果slaves 没有配置导致只启动一个datanode。
错误排查方式:查看logs下的对应日志文件。
sbin/stop-dfs.sh 命令执行的日志也可以查看错误。

停止hdfs时错误

  • 测试hdfs

测试命令(创建hdfs系统中文件夹):bin/hdsf dfs -mkdir -p /user/beifeng/temp


查看结果

上传文件测试命令: bin/hdfs dfs -put etc/hadoop/*-site.xml /user/beifeng/temp
向132服务器同步数据时报错


报错

意思就是坏的连接 网络未通你把防火墙一关就好了。(浪费我2个小时时间

  1. 重启后生效
    开启: chkconfig iptables on
    关闭: chkconfig iptables off
  2. 即时生效,重启后失效
    开启: service iptables start
    关闭: service iptables stop
    解决办法添加端口50010。vi /etc/sysconfig/iptables
  • 测试文件上传put

命令:bin/hdfs dfs -put etc/hadoop/*-site.xml /user/root/user/beifeng/


yarn启动

sbin/start-yarn.sh

  • 启动结果正常




测试yarn服务
  • 创建MapReduce的input目录

bin/hdfs dfs -mkdir -p /user/beifeng/mapreduce/wordcount/input
bin/hdfs dfs -ls /user/beifeng/mapreduce/wordcount/input

  • 上传wordcount需要计算的文件

bin/hdfs dfs -put /opt/modules/hadoop-2.5.0/wc.input /user/beifeng/mapreduce/wordcount/input

  • 测试yarn服务上的MapReduce

命令: bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /user/beifeng/mapreduce/wordcount/input /user/beifeng/mapreduce/wordcount/output
查看运行结果
bin/hdfs dfs -text /user/beifeng/mapreduce/wordcount/output/part*




相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
4月前
|
分布式计算 Hadoop 大数据
大数据体系知识学习(一):PySpark和Hadoop环境的搭建与测试
这篇文章是关于大数据体系知识学习的,主要介绍了Apache Spark的基本概念、特点、组件,以及如何安装配置Java、PySpark和Hadoop环境。文章还提供了详细的安装步骤和测试代码,帮助读者搭建和测试大数据环境。
123 1
|
4月前
|
运维 监控 数据可视化
大数据-171 Elasticsearch ES-Head 与 Kibana 配置 使用 测试
大数据-171 Elasticsearch ES-Head 与 Kibana 配置 使用 测试
201 1
|
4月前
|
SQL 分布式计算 NoSQL
大数据-170 Elasticsearch 云服务器三节点集群搭建 测试运行
大数据-170 Elasticsearch 云服务器三节点集群搭建 测试运行
83 4
|
4月前
|
SQL 分布式计算 大数据
大数据-168 Elasticsearch 单机云服务器部署运行 详细流程
大数据-168 Elasticsearch 单机云服务器部署运行 详细流程
99 2
|
4月前
|
SQL 消息中间件 大数据
大数据-159 Apache Kylin 构建Cube 准备和测试数据(一)
大数据-159 Apache Kylin 构建Cube 准备和测试数据(一)
125 1
|
4月前
|
SQL 大数据 Apache
大数据-159 Apache Kylin 构建Cube 准备和测试数据(二)
大数据-159 Apache Kylin 构建Cube 准备和测试数据(二)
106 1
|
4月前
|
存储 大数据 Apache
大数据-146 Apache Kudu 安装运行 Dockerfile 模拟集群 启动测试
大数据-146 Apache Kudu 安装运行 Dockerfile 模拟集群 启动测试
38 0
|
4月前
|
存储 SQL 分布式计算
大数据-135 - ClickHouse 集群 - 数据类型 实际测试
大数据-135 - ClickHouse 集群 - 数据类型 实际测试
61 0
|
4月前
|
消息中间件 分布式计算 大数据
大数据-123 - Flink 并行度 相关概念 全局、作业、算子、Slot并行度 Flink并行度设置与测试
大数据-123 - Flink 并行度 相关概念 全局、作业、算子、Slot并行度 Flink并行度设置与测试
240 0
|
分布式计算 大数据 Hadoop
大数据||Hadoop分布式部署虚拟机
分布式部署 伪分布式。一台机器运行所有的守护进程,从节点datanode、nodemanager 完成分布式。 有多个从节点。 datanodes、nodeManager。
1081 0