Hadoop和Spark集群搭建的大致流程

简介:

【Hadoop】

1.首先,准备好Hadoop安装包和JDK的安装与配置
2.建立各个机器之间的ssh信任关系,即互信
3.修改hadoop配置文件
【core、hdfs、yarn、mapred】
默认配置文件:core-default.xml、hdfs-default.xml、mapred-default.xml、yarn-default.xml
特定配置文件:core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml
特定配置文件会覆盖默认的配置项
image
image
image
【core-site.xml】
是整个Hadoop通用的配置,集群的每个主机都存在。
分布式文件系统名字、临时目录以及其他与网络配置相关的参数
【hdfs-site.xml】
配置HDFS系统的运行时属性和各个数据节点上文件的物理存储相关的属性
主-辅节点存放元数据文件表(fsimage文件)的目录
主-辅节点存储元数据事务处理文件(edits文件)的目录
默认数据块大小
数据块备份数量
名称节点和数据节点通信的服务器线程数,默认为10
【mapred-site.xml】
保护了与CPU、内存、磁盘I/O和网络相关的参数
任务是本地作业执行器还是提交到yarn集群
运行Map或Reduce任务的JVM堆大小
运行Map和Reduce任务的容器的内存大小
存储中间数据文件的本地目录
作业跟踪器(YARN)的服务器进程数量
任务重试的最大次数
【yarn-site.xml】
配置由YARN框架提供的通用服务守护进程的属性,比如资源管理器和节点管理器
运行资源管理器的主机名以及端口号
启动容器的最大最小内存量和虚拟CPU内核数

【Spark】

在有JDK和Hadoop的基础上,安装Scala
修改配置文件
【spark属性、环境变量、日志配置】
属性可以直接在sparkconf上配置给sparkcontext
spark shell和spark-submit工具支持两种方式动态加载配置,第一种是命令行选项,第二种运行./bin/spark-submit实现
当然spark-submit也会在conf/spark-defaults.conf中读取配置选项
driver程序运行时需要的cpu内核数和内存数
每个executor进程使用的内存数

目录
打赏
0
0
0
0
1
分享
相关文章
CentOS中构建高可用Hadoop 3集群
这个过程像是在一个未知的森林中探索。但当你抵达终点,看到那个熟悉的Hadoop管理界面时,所有的艰辛都会化为乌有。仔细观察,尽全力,这就是构建高可用Hadoop 3集群的挑战之旅。
119 21
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
230 79
打破资源边界、告别资源浪费:ACK One 多集群Spark和AI作业调度
ACK One多集群Spark作业调度,可以帮助您在不影响集群中正在运行的在线业务的前提下,打破资源边界,根据各集群实际剩余资源来进行调度,最大化您多集群中闲置资源的利用率。
Spark Master HA 主从切换过程不会影响到集群已有作业的运行, 为什么?
Spark Master 的高可用性(HA)机制确保主节点故障时,备用主节点能无缝接管集群管理,保障稳定运行。关键在于: 1. **Driver 和 Executor 独立**:任务执行不依赖 Master。 2. **应用状态保持**:备用 Master 通过 ZooKeeper 恢复集群状态。 3. **ZooKeeper 协调**:快速选举新 Master 并同步状态。 4. **容错机制**:任务可在其他 Executor 上重新调度。 这些特性保证了集群在 Master 故障时仍能正常运行。
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
385 2
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
350 1
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(一)
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(一)
94 0
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(二)
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(二)
73 0
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
92 0
大数据-98 Spark 集群 Spark Streaming 基础概述 架构概念 执行流程 优缺点
大数据-98 Spark 集群 Spark Streaming 基础概述 架构概念 执行流程 优缺点
143 0

相关实验场景

更多
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等