使用E-MapReduce服务处理阿里云文件存储(NAS)的数据

简介: 给大家介绍一个使用场景,可以将E-MapReduce的Hadoop作业和文件存储(NAS)结合在一起,发挥分布式存储和分布式计算在一起的威力

简介

文件存储是阿里云今年新推出的存储服务,因为它提供标准的文件访问协议,用户无需对现有应用做任何修改,即可使用具备无限容量及性能扩展、单一命名空间、多共享、高可靠和高可用等特性的分布式文件系统。E-MapReduce服务是阿里云上的开源大数据解决方案,可以帮用户构建基于Hadoop等开源组件的大数据平台。

今天我给大家介绍一个使用场景,可以将E-MapReduce的Hadoop作业和文件存储(NAS)结合在一起,发挥分布式存储和分布式计算在一起的威力。

环境准备

第一步:按照官方文档在文件存储的管理控制台依次创建文件系统、创建挂载点、配置权限组规则。值得注意的是,如果使用经典网络环境,挂载点不提供默认权限组,且经典网络类型权限组规则授权地址只能是单个 IP 而不能是网段,所以你需要在控制台里手动添加规则。所以需要确保E-MapReduce集群里所有的节点都设置了对NAS的访问权限(读写)。

第二步:通过SSH登录E-MapReduce节点,挂载NAS。注意:master节点和worker节点都需要挂载:

sudo mkdir /mnt/nas
sudo mount -t nfs4 <nas-url>.cn-hangzhou.nas.aliyuncs.com:/ /mnt/nas

第三步:测试挂载是否生效,比如可以在Master节点上创建目录:

mkdir /mnt/nas/wc-in

并在worker节点上创建文件

touch /mnt/nas/wc-in/1.txt

确保所有节点上都能看到文件,这样NAS配置就算成功了

[hadoop@emr-header-1 ~]$ ls -l  /mnt/nas/wc-in
total 8
-rw-rw-r-- 1 hadoop hadoop 27 12月 12 10:32 1.txt
-rw-rw-r-- 1 hadoop hadoop 28 12月 12 10:32 2.txt

运行Hadoop MapReduce任务

环境准备好之后,我们就可以运行Hadoop任务,这里的例子采用了最常见的WordCount:

hadoop jar /opt/apps/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount file:///mnt/nas/wc-in file:///mnt/nas/wc-out

因为NAS就是挂载在本地的文件系统,所以可以采用Hadoop自带的处理组件,我们只需要在输入和输出目录(或文件)前面加上 file:/// 前缀,MapReduce任务就会自动定位到NAS上,处理NAS上的数据,并把结果写到NAS上。

查看结果

[hadoop@emr-worker-2 wc-out]$ cat /mnt/nas/wc-out/part-* 
world   2
aliyun  2
alibaba 1
hadoop  1
hello   1
tencent 1
相关实践学习
基于ECS和NAS搭建个人网盘
本场景主要介绍如何基于ECS和NAS快速搭建个人网盘。
阿里云文件存储 NAS 使用教程
阿里云文件存储(Network Attached Storage,简称NAS)是面向阿里云ECS实例、HPC和Docker的文件存储服务,提供标准的文件访问协议,用户无需对现有应用做任何修改,即可使用具备无限容量及性能扩展、单一命名空间、多共享、高可靠和高可用等特性的分布式文件系统。 产品详情:https://www.aliyun.com/product/nas
目录
相关文章
|
1天前
|
弹性计算 数据安全/隐私保护
【零成本】【懒人版】阿里云上雾锁王国/Enshrouded服务搭建教程
【零成本】【懒人版】雾锁王国/Enshrouded服务搭建教程。随着游戏行业的不断发展,玩家们对于游戏体验的要求也越来越高。为了满足玩家们的需求,腾讯云提供了游戏联机服务器一键部署方案,本文将为大家分享基于阿里云服务器10秒钟完成雾锁王国游戏服务器搭建教程,让大家的游戏体验更加顺畅。
|
1天前
|
运维 安全 关系型数据库
数据库自治与安全服务训练营火热开营!完成任务可得国潮保温杯和阿里云定制双肩包!
本训练营带您简单了解数据库自治与云安全服务,数据库自治服务提供云上RDS、PolarDB、NoSQL、ADB等数据库7*24小时异常检测、SQL自优化、安全合规审计、弹性伸缩、数据自治、锁分析等亮点功能。一站式自动化、数字化DAS集成平台,助力您畅享DBA运维智能化。
|
2天前
|
弹性计算 数据安全/隐私保护
【雾锁王国/Enshrouded攻略】2024年阿里云服务器一键搭建雾锁王国/Enshrouded联机服务教程
【雾锁王国/Enshrouded攻略】2024年阿里云服务器一键搭建雾锁王国/Enshrouded联机服务教程。《雾锁王国》Enshrouded是一款合作生存建造动作角色扮演游戏,抢先体验仅四天就吸引了超百万玩家,同时在线人数超16万人。由于游玩人数多,雾锁王国官方服务器游戏的卡顿问题变得非常严重。我们可以在本地自建个人专属游戏服务器,享受更加流畅舒适的游戏体验,还能够与朋友在独立私密的环境中一同游玩。本文将为大家分享阿里云一键部署雾锁王国联机服务器详细教程。
|
2天前
|
弹性计算 Ubuntu Linux
2024年幻兽帕鲁/Palworld联机服务快速部署教程:阿里云服务器1分钟部署幻兽帕鲁联机服务
2024年幻兽帕鲁/Palworld联机服务快速部署教程:阿里云服务器1分钟部署幻兽帕鲁联机服务。《幻兽帕鲁》非常火爆,如果你想要建立一个幻兽帕鲁的联机服务器,阿里云ECS云服务器是一个不错的选择。本文将为你详细介绍如何利用阿里云ECS云服务器搭建幻兽帕鲁的联机服务器。
|
3天前
|
文字识别 API 开发工具
阿里云文字识别OCR服务确实支持将识别结果以键值对(key-value)的形式返回
阿里云文字识别OCR服务确实支持将识别结果以键值对(key-value)的形式返回
21 5
|
7天前
|
人工智能 机器人 API
Python和阿里云AI服务搭建
使用Python和阿里云AI服务搭建一个简单的聊天机器人的教程 1. 注册阿里云账号并登录。 2. 开通阿里云AI服务,并创建一个智能对话机器人。 3. 获取API密钥和AccessToken。 4. 安装Python环境和SDK。
24 7
|
9天前
|
存储 安全 网络协议
阿里云网盘与相册问题之服务开通历史版本如何解决
阿里云网盘与相册是阿里云提供的云存储服务,用户可以安全便捷地存储和管理个人文件、照片等数据;本合集将介绍如何使用阿里云网盘和相册服务,包括文件上传、同步、分享,以及处理常见使用问题的技巧。
21 1
|
12天前
|
监控 安全 关系型数据库
在规划阿里云RDS跨区迁移资源和服务可用性
在规划阿里云RDS跨区迁移资源和服务可用性
23 4
|
15天前
|
NoSQL 关系型数据库 Linux
阿里云RDS购买Linux——安装redis服务
阿里云RDS购买Linux——安装redis服务
30 0
|
22天前
|
存储 弹性计算 监控
【数据传输服务用户测评】阿里云DTS和MongoShake的性能对比
本文聚焦DTS MongoDB->MongoDB 和 MongoShake 数据同步的性能,分别针对副本集/分片集群架构、单表/多表、全量/增量同步进行性能的对比。
85836 9

热门文章

最新文章

相关产品

  • 开源大数据平台 E-MapReduce