使用E-MapReduce服务处理阿里云文件存储(NAS)的数据

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 给大家介绍一个使用场景,可以将E-MapReduce的Hadoop作业和文件存储(NAS)结合在一起,发挥分布式存储和分布式计算在一起的威力

简介

文件存储是阿里云今年新推出的存储服务,因为它提供标准的文件访问协议,用户无需对现有应用做任何修改,即可使用具备无限容量及性能扩展、单一命名空间、多共享、高可靠和高可用等特性的分布式文件系统。E-MapReduce服务是阿里云上的开源大数据解决方案,可以帮用户构建基于Hadoop等开源组件的大数据平台。

今天我给大家介绍一个使用场景,可以将E-MapReduce的Hadoop作业和文件存储(NAS)结合在一起,发挥分布式存储和分布式计算在一起的威力。

环境准备

第一步:按照官方文档在文件存储的管理控制台依次创建文件系统、创建挂载点、配置权限组规则。值得注意的是,如果使用经典网络环境,挂载点不提供默认权限组,且经典网络类型权限组规则授权地址只能是单个 IP 而不能是网段,所以你需要在控制台里手动添加规则。所以需要确保E-MapReduce集群里所有的节点都设置了对NAS的访问权限(读写)。

第二步:通过SSH登录E-MapReduce节点,挂载NAS。注意:master节点和worker节点都需要挂载:

sudo mkdir /mnt/nas
sudo mount -t nfs4 <nas-url>.cn-hangzhou.nas.aliyuncs.com:/ /mnt/nas

第三步:测试挂载是否生效,比如可以在Master节点上创建目录:

mkdir /mnt/nas/wc-in

并在worker节点上创建文件

touch /mnt/nas/wc-in/1.txt

确保所有节点上都能看到文件,这样NAS配置就算成功了

[hadoop@emr-header-1 ~]$ ls -l  /mnt/nas/wc-in
total 8
-rw-rw-r-- 1 hadoop hadoop 27 12月 12 10:32 1.txt
-rw-rw-r-- 1 hadoop hadoop 28 12月 12 10:32 2.txt

运行Hadoop MapReduce任务

环境准备好之后,我们就可以运行Hadoop任务,这里的例子采用了最常见的WordCount:

hadoop jar /opt/apps/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount file:///mnt/nas/wc-in file:///mnt/nas/wc-out

因为NAS就是挂载在本地的文件系统,所以可以采用Hadoop自带的处理组件,我们只需要在输入和输出目录(或文件)前面加上 file:/// 前缀,MapReduce任务就会自动定位到NAS上,处理NAS上的数据,并把结果写到NAS上。

查看结果

[hadoop@emr-worker-2 wc-out]$ cat /mnt/nas/wc-out/part-* 
world   2
aliyun  2
alibaba 1
hadoop  1
hello   1
tencent 1
相关实践学习
基于EMR Serverless StarRocks一键玩转世界杯
基于StarRocks构建极速统一OLAP平台
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
目录
相关文章
|
运维 文件存储 对象存储
【运维知识进阶篇】用阿里云部署kod可道云网盘(配置Redis+MySQL+NAS+OSS)(三)
【运维知识进阶篇】用阿里云部署kod可道云网盘(配置Redis+MySQL+NAS+OSS)(三)
327 0
|
6月前
|
存储 分布式计算 算法
【底层服务/编程功底系列】「大数据算法体系」带你深入分析MapReduce算法 — Shuffle的执行过程
【底层服务/编程功底系列】「大数据算法体系」带你深入分析MapReduce算法 — Shuffle的执行过程
98 0
|
3月前
|
分布式计算 API Go
通过MapReduce降低服务响应时间
通过MapReduce降低服务响应时间
|
4月前
|
存储 NoSQL 文件存储
云计算问题之阿里云文件存储CPFS如何满足大模型智算场景的存储需求
云计算问题之阿里云文件存储CPFS如何满足大模型智算场景的存储需求
103 2
|
5月前
|
存储 运维 Serverless
函数计算产品使用问题之不再使用NAS存储服务且希望停止扣费时,该如何操作
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
存储 运维 数据安全/隐私保护
【运维知识进阶篇】用阿里云部署kod可道云网盘(配置Redis+MySQL+NAS+OSS)(四)
【运维知识进阶篇】用阿里云部署kod可道云网盘(配置Redis+MySQL+NAS+OSS)(四)
312 0
|
数据采集 分布式计算 搜索推荐
Hadoop学习---7、OutputFormat数据输出、MapReduce内核源码解析、Join应用、数据清洗、MapReduce开发总结(一)
Hadoop学习---7、OutputFormat数据输出、MapReduce内核源码解析、Join应用、数据清洗、MapReduce开发总结(一)
|
存储 监控 安全
阿里云文件存储NAS(Apsara File Storage NAS)的测评体验报告
阿里云文件存储NAS(Apsara File Storage NAS)是一个弹性扩展的分布式文件系统,适用于各种企业级应用场景。本文将对其在内容管理系统和Web服务应用程序中的使用体验进行评估。
303 58
|
SQL
在阿里云的E-MapReduce中,对数组类型进行聚合操作需要使用特定的函数
在阿里云的E-MapReduce中,对数组类型进行聚合操作需要使用特定的函数
52 2
|
存储 Serverless 文件存储
将 Stable Diffusion 服务部署在 FC+NAS
将 Stable Diffusion 服务部署在 FC+NAS
244 1
下一篇
无影云桌面