基于mac构建大数据伪分布式学习环境(三)-配置免密登录并配置Hadoop

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本文主要讲解如何配置免密登录,并配置Hadoop

上传文件等操作,这里不再赘述

前置免密登录操作:

ssh-keygen -t rsa
ll ~/.ssh/
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

解压

tar -zxvf hadoop-3.2.0.tar.gz

配置环境变量

vi /etc/profile
exportPATH=.:$JAVA_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$PATH

修改配置文件

* hadoop-env.sh
```bashexport JAVA_HOME=/data/soft/jdk1.8export HADOOP_LOG_DIR=/data/hadoop_repo/logs/hadoop```* core-site.xml 
```xml<configuration>    <property>        <name>fs.defaultFS</name>        <value>hdfs://bigdata:9000</value>    </property>    <property>        <name>hadoop.tmp.dir</name>        <value>/data/hadoop_repo</value>   </property></configuration>```* hdfs-site.xml
```xml<configuration>    <property>        <name>dfs.replication</name>        <value>1</value>    </property></configuration>```* mapred-site.xml
```xml<configuration>    <property>        <name>mapreduce.framework.name</name>        <value>yarn</value>    </property></configuration>```* Yarn-site.xml
```xml<configuration>    <property>        <name>yarn.nodemanager.aux-services</name>        <value>mapreduce_shuffle</value>    </property>    <property>        <name>yarn.nodemanager.env-whitelist</name>   <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>    </property></configuration>```* Workers
```xmlbigdata```* 


  • 格式化hdfs
cd /data/soft/hadoop-3.2.0
bin/hdfs namenode -format

网络异常,图片无法展示
|

• 增加start-dfs.sh,stop-dfs.sh以及start-yarn.sh,stop-yarn.sh下的日志信息
• start-dfs.sh,stop-dfs.sh
HDFS_DATANODE_USER=root
HDFS_DATANODE_SECURE_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root
• start-yarn.sh,stop-yarn.sh
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root
• 启动集群
start-all.sh

网络异常,图片无法展示
|

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
目录
相关文章
|
2天前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
16 2
|
3天前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
18 1
|
21天前
|
分布式计算 Hadoop 大数据
大数据体系知识学习(一):PySpark和Hadoop环境的搭建与测试
这篇文章是关于大数据体系知识学习的,主要介绍了Apache Spark的基本概念、特点、组件,以及如何安装配置Java、PySpark和Hadoop环境。文章还提供了详细的安装步骤和测试代码,帮助读者搭建和测试大数据环境。
37 1
|
23天前
|
SQL 分布式计算 大数据
大数据平台的毕业设计01:Hadoop与离线分析
大数据平台的毕业设计01:Hadoop与离线分析
|
存储 分布式计算 资源调度
Hadoop系列之一:MAC安装Hadoop大数据框架
Hadoop是一个用Java开发的开源框架,它允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。它的设计是从单个服务器扩展到数千个机器,每个都提供本地计算和存储。特别适合写一次,读多次的场景。
Hadoop系列之一:MAC安装Hadoop大数据框架
|
12月前
|
分布式计算 资源调度 Hadoop
Mac下安装Hadoop
Mac下安装Hadoop
134 0
|
分布式计算 资源调度 Hadoop
Mac环境下安装hadoop
Mac环境下安装hadoop
174 0
|
分布式计算 Hadoop 网络安全
《Hadoop实战第2版》——2.2节在Mac OSX上安装与配置Hadoop
本节书摘来自华章社区《Hadoop实战第2版》一书中的第2章,第2.2节在Mac OSX上安装与配置Hadoop,作者:陆嘉恒,更多章节内容可以访问云栖社区“华章社区”公众号查看
1664 0
|
SQL 分布式计算 Hadoop