在文件存储HDFS版上使用 Apache Spark

2021-12-03 357

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

对象存储 OSS，20GB 3个月

云备份 Cloud Backup，100GB 3个月

文件存储 NAS，50GB 3个月

简介： 本文档主要介绍如何在挂载文件存储HDFS版的 Hadoop 集群上安装及使用 Spark。

一前言

本文档主要介绍如何在挂载文件存储HDFS版的 Hadoop 集群上安装及使用 Spark。

二准备工作

开通文件存储HDFS版服务并创建文件系统实例和挂载点，详情请参见快速入门。
在 Hadoop 集群所有节点上安装JDK。版本不能低于1.8。
下载 Apache Hadoop 压缩包，下载地址：官方链接。建议您选用的 Hadoop 版本不低于2.7.2，本文档中使用的 Hadoop 版本为 Apache Hadoop 2.7.2。
下载 Apache Spark 压缩包，下载地址：官方链接。本文档中使用的版本为官方提供的预编译版本 Apache Spark 2.4.8 。

三配置 Hadoop

执行如下命令解压 Hadoop 压缩包到指定目录。

tar -zxf hadoop-2.7.2.tar.gz -C /usr/local/

修改 hadoop-env.sh 配置文件。

执行如下命令打开 hadoop-env.sh 配置文件。

vim /usr/local/hadoop-2.7.2/etc/hadoop/hadoop-env.sh

配置 JAVA_HOME 目录，如下所示。

exportJAVA_HOME=/usr/java/default

修改 core-site.xml 配置文件。

执行如下命令打开 core-site.xml 配置文件。

vim /usr/local/hadoop-2.7.2/etc/hadoop/core-site.xml

在 core-site.xml 配置文件中，配置如下信息，详情请参见挂载文件系统。

<configuration>
    <property>
         <name>fs.defaultFS</name>
         <value>dfs://x-xxxxxxxx.cn-xxxxx.dfs.aliyuncs.com:10290</value>  
         <!-- 该地址填写您的挂载点地址 -->
    </property>
    <property>
         <name>fs.dfs.impl</name>
         <value>com.alibaba.dfs.DistributedFileSystem</value>
    </property>
    <property>
         <name>fs.AbstractFileSystem.dfs.impl</name>
         <value>com.alibaba.dfs.DFS</value>
    </property>
</configuration>

修改 yarn-site.xml 配置文件。

执行如下命令打开 yarn-site.xml 配置文件。

vim /usr/local/hadoop-2.7.2/etc/hadoop/yarn-site.xml

在 yarn-site.xml 配置文件中，配置如下信息。

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>xxxx</value>
        <!-- 该地址填写集群中resourcemanager的hostname -->
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
    <property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>16384</value>
        <!-- 根据您当前的集群能力进行配置此项 -->
    </property>
    <property>
        <name>yarn.nodemanager.resource.cpu-vcores</name>
        <value>4</value>
        <!-- 根据您当前的集群能力进行配置此项 -->
    </property>
    <property>
        <name>yarn.scheduler.maximum-allocation-vcores</name>
        <value>4</value>
        <!-- 根据您当前的集群能力进行配置此项 -->
    </property>
    <property>
        <name>yarn.scheduler.minimum-allocation-mb</name>
        <value>3584</value>
        <!-- 根据您当前的集群能力进行配置此项 -->
    </property>
    <property>
        <name>yarn.scheduler.maximum-allocation-mb</name>
        <value>14336</value>
        <!-- 根据您当前的集群能力进行配置此项 -->
    </property>
</configuration>

修改 slaves 配置文件。

执行如下命令打开 slaves 配置文件。

vim /usr/local/hadoop-2.7.2/etc/hadoop/slaves

在 slaves 配置文件中，配置集群计算节点的 hostname。

cluster-header-1
cluster-worker-1

配置环境变量。

执行如下命令打开 /etc/profile 配置文件。

vim /etc/profile

在 /etc/profile 配置文件中，配置 HADOOP_HOME 。

exportHADOOP_HOME=/usr/local/hadoop-2.7.2
exportHADOOP_CLASSPATH=$HADOOP_CLASSPATH:$($HADOOP_HOME/bin/hadoop classpath)exportHADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
exportPATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

执行如下命令使配置生效。

source /etc/profile

配置文件存储HDFS版的Java SDK。

您可以单击此处，下载文件存储HDFS版最新的Java SDK，将其部署在Hadoop生态系统组件的CLASSPATH上，详情请参见挂载文件系统。

cp aliyun-sdk-dfs-x.y.z.jar  /usr/local/hadoop-2.7.2/share/hadoop/hdfs

执行如下命令将${HADOOP_HOME}文件夹同步到集群的其他节点的相同目录下，并按照本章节步骤 6 对集群其他节点配置 Hadoop 的环境变量。

scp -r hadoop-2.7.2/ root@cluster-worker-1:/usr/local/

四验证 Hadoop 配置

完成 Hadoop 配置后，不需要格式化 NameNode，也不需要使用 start-dfs.sh 来启动 HDFS 相关服务。在 ResourceManager 节点启动 Yarn 服务，验证 Hadoop 配置成功的方法请参见文档：验证安装。

五配置 Spark

执行如下命令解压 Spark 压缩包到指定目录。

tar -zxf spark-2.4.8-bin-hadoop2.7.tgz -C /usr/local/

将文件存储HDFS版 Java SDK 放到 Spark 的 jars 目录下。

cp aliyun-sdk-dfs-x.y.z.jar /usr/local/spark-2.4.8-bin-hadoop2.7/jars/

注意事项

如果您需要对 Spark 进行额外的配置，请参考官方文档：配置操作指南

六验证 Spark 配置

读取文件存储HDFS版上的数据进行 WordCount 计算并将结果写到文件存储HDFS版上。

## 请将下方文档中的 f-xxxxxxx.cn-zhangjiakou.dfs.aliyuncs.com 替换为您的挂载点## 在文件存储HDFS版上生成测试数据hadoop jar ${HADOOP_HOME}/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar \
randomtextwriter \
-D mapreduce.randomtextwriter.totalbytes=10240 \
-D mapreduce.randomtextwriter.bytespermap=1024 \
dfs://f-xxxxxxx.cn-zhangjiakou.dfs.aliyuncs.com:10290/input
## 启动 spark-shell 执行 WordCount${SPARK_HOME}/bin/spark-shell --master yarn
scala> val res = sc.textFile("dfs://f-xxxxxxx.cn-zhangjiakou.dfs.aliyuncs.com:10290/input").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)
scala> res.collect.foreach(println)
scala> res.saveAsTextFile("dfs://f-xxxxxxx.cn-zhangjiakou.dfs.aliyuncs.com:10290/output")
## 查看写入文件存储HDFS版的结果数据hadoop fs -ls dfs://f-xxxxxxx.cn-zhangjiakou.dfs.aliyuncs.com:10290/output

了解更多关于文件存储HDFS版的产品信息，欢迎访问https://www.aliyun.com/product/alidfs

如果您对文件存储HDFS版有任何问题，欢迎钉钉扫描以下二维码加入文件存储HDFS版技术交流群。

在文件存储HDFS版上使用 Apache Spark

一前言

二准备工作

三配置 Hadoop

四验证 Hadoop 配置

五配置 Spark

六验证 Spark 配置

技术博文

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

在文件存储HDFS版上使用 Apache Spark

一 前言

二 准备工作

三 配置 Hadoop

四 验证 Hadoop 配置

五 配置 Spark

六 验证 Spark 配置

技术博文

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

一前言

二准备工作

三配置 Hadoop

四验证 Hadoop 配置

五配置 Spark

六验证 Spark 配置