Hadoop的配置文件主要由四个文件组成:core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml。这些文件分别用于配置Hadoop集群的不同组件和参数。
- core-site.xml
core-site.xml是Hadoop集群的全局配置文件,它包含系统级别的参数设置。一些重要的参数包括:
fs.defaultFS:指定HDFS的URI,通常是hdfs://:。
hadoop.tmp.dir:Hadoop用于存储临时文件的本地文件系统目录。
io.file.buffer.size:用于文件操作的缓冲区大小。
- hdfs-site.xml
hdfs-site.xml是HDFS的配置文件,包含HDFS相关的参数设置。一些重要的参数包括:
dfs.replication:指定文件在HDFS中的副本数。
dfs.namenode.name.dir:NameNode用于存储文件系统元数据的本地文件系统目录。
dfs.datanode.data.dir:DataNode用于存储实际数据的本地文件系统目录。
dfs.namenode.secondary.http-address:Secondary NameNode的HTTP服务地址和端口。
- mapred-site.xml
mapred-site.xml是MapReduce的配置文件,包含MapReduce作业相关的参数设置。一些重要的参数包括:
mapreduce.framework.name:指定使用的MapReduce框架,通常是yarn。
mapreduce.jobhistory.address:JobHistory Server的HTTP服务地址和端口。
mapreduce.jobhistory.webapp.address:JobHistory Server的Web应用服务地址和端口。
- yarn-site.xml
yarn-site.xml是YARN(Hadoop Resource Manager)的配置文件,包含YARN相关的参数设置。一些重要的参数包括:
yarn.resourcemanager.hostname:指定ResourceManager的主机名。
yarn.nodemanager.aux-services:指定NodeManager提供的辅助服务,如mapreduce_shuffle。
yarn.scheduler.maximum-allocation-mb和yarn.scheduler.maximum-allocation-vcores:指定单个容器可以分配的最大内存和CPU核数。