Hadoop和Spark集群搭建的大致流程

简介:

【Hadoop】

1.首先,准备好Hadoop安装包和JDK的安装与配置
2.建立各个机器之间的ssh信任关系,即互信
3.修改hadoop配置文件
【core、hdfs、yarn、mapred】
默认配置文件:core-default.xml、hdfs-default.xml、mapred-default.xml、yarn-default.xml
特定配置文件:core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml
特定配置文件会覆盖默认的配置项
image
image
image
【core-site.xml】
是整个Hadoop通用的配置,集群的每个主机都存在。
分布式文件系统名字、临时目录以及其他与网络配置相关的参数
【hdfs-site.xml】
配置HDFS系统的运行时属性和各个数据节点上文件的物理存储相关的属性
主-辅节点存放元数据文件表(fsimage文件)的目录
主-辅节点存储元数据事务处理文件(edits文件)的目录
默认数据块大小
数据块备份数量
名称节点和数据节点通信的服务器线程数,默认为10
【mapred-site.xml】
保护了与CPU、内存、磁盘I/O和网络相关的参数
任务是本地作业执行器还是提交到yarn集群
运行Map或Reduce任务的JVM堆大小
运行Map和Reduce任务的容器的内存大小
存储中间数据文件的本地目录
作业跟踪器(YARN)的服务器进程数量
任务重试的最大次数
【yarn-site.xml】
配置由YARN框架提供的通用服务守护进程的属性,比如资源管理器和节点管理器
运行资源管理器的主机名以及端口号
启动容器的最大最小内存量和虚拟CPU内核数

【Spark】

在有JDK和Hadoop的基础上,安装Scala
修改配置文件
【spark属性、环境变量、日志配置】
属性可以直接在sparkconf上配置给sparkcontext
spark shell和spark-submit工具支持两种方式动态加载配置,第一种是命令行选项,第二种运行./bin/spark-submit实现
当然spark-submit也会在conf/spark-defaults.conf中读取配置选项
driver程序运行时需要的cpu内核数和内存数
每个executor进程使用的内存数

目录
相关文章
|
8天前
|
分布式计算 Hadoop Devops
Hadoop集群配置https实战案例
本文提供了一个实战案例,详细介绍了如何在Hadoop集群中配置HTTPS,包括生成私钥和证书文件、配置keystore和truststore、修改hdfs-site.xml和ssl-client.xml文件,以及重启Hadoop集群的步骤,并提供了一些常见问题的故障排除方法。
18 3
Hadoop集群配置https实战案例
|
9天前
|
机器学习/深度学习 分布式计算 安全
Hadoop集群常见报错汇总
这篇博客总结了Hadoop集群中可能遇到的各种常见错误,包括Kerberos认证问题、配置错误、权限问题等,并为每个问题提供了详细的错误复现、原因分析以及相应的解决方案。
23 1
Hadoop集群常见报错汇总
|
9天前
|
资源调度 分布式计算 运维
Hadoop集群资源管理篇-资源调度器
详细介绍了Hadoop集群资源管理中的资源调度器,包括资源分配的概念、大数据运维工程师如何管理集群工作负载、资源调度器的背景、Hadoop提供的FIFO、容量调度器和公平调度器三种资源调度器的概述以及它们之间的对比。
40 4
|
9天前
|
分布式计算 监控 Hadoop
监控Hadoop集群实战篇
介绍了监控Hadoop集群的方法,包括监控Linux服务器、Hadoop指标、使用Ganglia监控Hadoop集群、Hadoop日志记录、通过Hadoop的Web UI进行监控以及其他Hadoop组件的监控,并提供了相关监控工具和资源的推荐阅读链接。
21 2
|
14天前
|
机器学习/深度学习 存储 分布式计算
Hadoop高可用集群搭建
Hadoop高可用集群搭建
|
11天前
|
存储 分布式计算 负载均衡
|
14天前
|
存储 分布式计算 资源调度
Hadoop集群的扩展性与容错能力
【8月更文第28天】Hadoop 是一种用于处理和存储大规模数据集的开源软件框架。它由两个核心组件构成:Hadoop 分布式文件系统 (HDFS) 和 MapReduce 计算框架。Hadoop 的设计考虑了可扩展性和容错性,使其成为大规模数据处理的理想选择。
32 0
|
2月前
|
机器学习/深度学习 分布式计算 算法
Spark快速大数据分析PDF下载读书分享推荐
《Spark快速大数据分析》适合初学者,聚焦Spark实用技巧,同时深入核心概念。作者团队来自Databricks,书中详述Spark 3.0新特性,结合机器学习展示大数据分析。Spark是大数据分析的首选工具,本书助你驾驭这一利器。[PDF下载链接][1]。 ![Spark Book Cover][2] [1]: https://zhangfeidezhu.com/?p=345 [2]: https://i-blog.csdnimg.cn/direct/6b851489ad1944548602766ea9d62136.png#pic_center
106 1
Spark快速大数据分析PDF下载读书分享推荐
|
1月前
|
分布式计算 资源调度 大数据
【决战大数据之巅】:Spark Standalone VS YARN —— 揭秘两大部署模式的恩怨情仇与终极对决!
【8月更文挑战第7天】随着大数据需求的增长,Apache Spark 成为关键框架。本文对比了常见的 Spark Standalone 与 YARN 部署模式。Standalone 作为自带的轻量级集群管理服务,易于设置,适用于小规模或独立部署;而 YARN 作为 Hadoop 的资源管理系统,支持资源的统一管理和调度,更适合大规模生产环境及多框架集成。我们将通过示例代码展示如何在这两种模式下运行 Spark 应用程序。
118 3
|
11天前
|
机器学习/深度学习 分布式计算 大数据
Spark 适合解决多种类型的大数据处理问题
【9月更文挑战第1天】Spark 适合解决多种类型的大数据处理问题
24 3