大数据||hadoop分布式集群安装

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 集群前先计划虚拟机,看文章大数据||Hadoop分布式部署虚拟机基于伪分布式环境安装进行展开规划机器与服务()HDFS 文件系统YARN “云操作系统”JobHistoryServer 历史服务监控修改配置文件,设置服务运行...

集群前先计划虚拟机,看文章大数据||Hadoop分布式部署虚拟机

  • 基于伪分布式环境安装进行展开
    规划机器与服务()
    HDFS 文件系统
    YARN “云操作系统”
    JobHistoryServer 历史服务监控
  • 修改配置文件,设置服务运行机器节点()
  • 分发HADOOP安装包至各个机器节点
  • 依据官方集群安装文档,分别启动各节点相应服务
  • 测试 HDFS 、YARN、 MapReduce ,Web UI 监控集群()
  • 配置主节点至各从节点 SSH 无密钥登陆
  • 集群基准测试(实际环境必须的,面试题)

系统基本环境配置

规划机器与服务

copy 伪分布模式步骤
image.png
配置hdfs
  • 配置jdk。


  • 配置hdfs的nameNode地址



  • 配置hadoop数据存储目录及垃圾回收时间

创建hadoop数据存储目录 mkdir -p /opt/app/hadoop-2.5.0/data/tmp


  • 配置secondaryNameNode

vi /opt/app/hadoop-2.5.0/etc/hadoop/hdfs-site.xml

  • 配置集群 slaves

vi /opt/app/hadoop-2.5.0/etc/hadoop/slaves


yarn配置
  • yarn的环境变量配置 。

vi /opt/app/hadoop-2.5.0/etc/hadoop/yarn-env.sh


  • resourceManager配置

vi /opt/app/hadoop-2.5.0/etc/hadoop/yarn-site.xml


  • 配置集群slaves

vi /opt/app/hadoop-2.5.0/etc/hadoop/slaves


配置MapReduce
  • mapReduce环境变量

vi /opt/app/hadoop-2.5.0/etc/hadoop/mapred-env.sh


  • 配置jobhistoryserver

vi /opt/app/hadoop-2.5.0/etc/hadoop/mapred-site.xml


分发Hadoop安装包至各个机器节点

  • 首先删除doc文件,此文件夹不需要分发


  • 从主节点(131)到从节点(132,133)无密码登入及测试


ssh-copy-id hadoop-senior02.beifeng.com
ssh-copy-id hadoop-senior03.beifeng.com
说明:ssh-copy-id命令可以把本地主机的公钥复制到远程主机的authorized_keys文件上,ssh-copy-id命令也会给远程主机的用户主目录(home)和~/.ssh, 和~/.ssh/authorized_keys设置合适的权限


  • 分发hadoop安装包到子节点(132,133node节点)

命令scp(ssh copy)
scp -r ./hadoop-2.5.0 root@hadoop-senior02.beifeng.com:/opt/app/
scp -r ./hadoop-2.5.0 root@hadoop-senior03.beifeng.com:/opt/app/

yarn(132)无密码登入

  • 删除复制过来的虚拟机


  • 两个linux机器之间使用ssh不需要用户名和密码

命令:ssh-keygen -t rsa 。

两个linux机器之间使用ssh不需要用户名和密码,采用了数字签名RSA或者DSA来完成这个操作
  • 公钥复制到远程主机的authorized_keys文件上

ssh-copy-id hadoop-senior02.beifeng.com
ssh-copy-id hadoop-senior.beifeng.com
ssh-copy-id hadoop-senior03.beifeng.com


image.png
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
打赏
0
0
0
0
10
分享
相关文章
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
116 79
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
本文探讨了如何通过技术手段混合使用AMD与NVIDIA GPU集群以支持PyTorch分布式训练。面对CUDA与ROCm框架互操作性不足的问题,文章提出利用UCC和UCX等统一通信框架实现高效数据传输,并在异构Kubernetes集群中部署任务。通过解决轻度与强度异构环境下的挑战,如计算能力不平衡、内存容量差异及通信性能优化,文章展示了如何无需重构代码即可充分利用异构硬件资源。尽管存在RDMA验证不足、通信性能次优等局限性,但该方案为最大化GPU资源利用率、降低供应商锁定提供了可行路径。源代码已公开,供读者参考实践。
15 3
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
阿里云推出的MaxFrame是链接大数据与AI的分布式Python计算框架,提供类似Pandas的操作接口和分布式处理能力。本文从部署、功能验证到实际场景全面评测MaxFrame,涵盖分布式Pandas操作、大语言模型数据预处理及企业级应用。结果显示,MaxFrame在处理大规模数据时性能显著提升,代码兼容性强,适合从数据清洗到训练数据生成的全链路场景...
120 5
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
MaxFrame 产品评测:大数据与AI融合的Python分布式计算框架
MaxFrame是阿里云MaxCompute推出的自研Python分布式计算框架,支持大规模数据处理与AI应用。它提供类似Pandas的API,简化开发流程,并兼容多种机器学习库,加速模型训练前的数据准备。MaxFrame融合大数据和AI,提升效率、促进协作、增强创新能力。尽管初次配置稍显复杂,但其强大的功能集、性能优化及开放性使其成为现代企业与研究机构的理想选择。未来有望进一步简化使用门槛并加强社区建设。
192 7
【SpringCloud Alibaba系列】一文全面解析Zookeeper安装、常用命令、JavaAPI操作、Watch事件监听、分布式锁、集群搭建、核心理论
一文全面解析Zookeeper安装、常用命令、JavaAPI操作、Watch事件监听、分布式锁、集群搭建、核心理论。
【SpringCloud Alibaba系列】一文全面解析Zookeeper安装、常用命令、JavaAPI操作、Watch事件监听、分布式锁、集群搭建、核心理论
Flume+Hadoop:打造你的大数据处理流水线
本文介绍了如何使用Apache Flume采集日志数据并上传至Hadoop分布式文件系统(HDFS)。Flume是一个高可用、可靠的分布式系统,适用于大规模日志数据的采集和传输。文章详细描述了Flume的安装、配置及启动过程,并通过具体示例展示了如何将本地日志数据实时传输到HDFS中。同时,还提供了验证步骤,确保数据成功上传。最后,补充说明了使用文件模式作为channel以避免数据丢失的方法。
126 4
【大数据分析&机器学习】分布式机器学习
本文主要介绍分布式机器学习基础知识,并介绍主流的分布式机器学习框架,结合实例介绍一些机器学习算法。
713 5
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
263 2
分布式是大数据处理的万能药?
分布式技术在大数据处理中广泛应用,通过将任务拆分至多个节点执行,显著提升性能。然而,它并非万能药,适用于易于拆分的任务,特别是OLTP场景。对于复杂计算如OLAP或批处理任务,分布式可能因数据交换延迟、非线性扩展等问题而表现不佳。因此,应先优化单机性能,必要时再考虑分布式。SPL等工具通过高效算法提升单机性能,减少对分布式依赖。
从数据小白到大数据达人:一步步成为数据分析专家
从数据小白到大数据达人:一步步成为数据分析专家
261 92
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等