尝新阿里云E-MapReduce MetaService服务

简介: 阿里云E-MapReduce从EMR-2.1.0版本镜像开始,将在VPC集群中提供MetaService服务。
+关注继续查看

阿里云E-MapReduce从EMR-2.1.0版本镜像开始,将在VPC集群中提供MetaService服务。

什么是MetaService服务?

从字面理解,MetaService服务提供用户查询集群Meta信息。包括哪些Meta信息呢?E-MapReduce
目前主要提供以下几种信息:

  • 集群所在Region
  • 集群角色AccessKeyId
  • 集群角色AccesskeySecret
  • 集群角色SecurityToken
  • 集群角色名
  • 集群所属网络类型

这些信息都可以用来做什么呢?集群所在Region和集群所属网络类型比较容易理解。我如果在杭州Region创建集群,那么可以通过查询MetaService获知当前集群处于“cn-hangzhou” Region。我如果创建VPC集群,那么通过查询MetaService可以获知当前集群网络类型为VPC。这些都是小Case。

角色属性对集群来说有什么意义呢?往下看!

为什么需要MetaService服务?

E-MapReduce从一开始就将OSS作为云上Hadoop集群的推荐存储介质(当然你也可以使用基于云盘的HDFS)。我们这么使用OSS存储:

    查看OSS目录

    hadoop fs -ls oss://Ubx***J8k:Na6J*******BIN@bucket.oss-cn-hangzhou-internal.aliyuncs.com/dir

    Hive建表

    hive> CREATE EXTERNAL TABLE people (id INT, name STRING)
    hive> ROW FORMAT DELIMITED
    hive> FIELDS TERMINATED BY ''/t'
    hive> LOCATION 'oss://Ubx***J8k:Na6J*******BIN@bucket.oss-cn-hangzhou-internal.aliyuncs.com/dir';

    SPARK SHELL

    scala> val data = sc.textFile("oss://Ubx***J8k:Na6J*******BIN@bucket.oss-cn-hangzhou-internal.aliyuncs.com/dir")
    scala> data.count

可以发现,

  1. 交互式查询中使用OSS数据源还是比较繁琐的,需要我们输入一长串的AK信息。当然,我们可以将
    AK信息写到配置文件中,但这种做法不够灵活。
  2. 首先我们一般是不建议用户直接使用AK的,最佳的实践方式是在RAM上创建子账号或者角色,然后使用子账号AK或者Token来完成资源的操作和api的调用。
  3. 开发人员接触到Root账号的AK,难免会存在泄露AK的风险。一旦泄露,造成的损失无法估量。

基于上述几个考虑,E-MapReduce一直在研究一种更好地使用集群的方式。这里我们就要谈到MetaService服务和集群的角色属性。解决这个问题的思路就是让用户在集群上的操作和AK解绑。在E-MapReduce控制台提交作业或者登陆集群运行作业,都不需要显式提供AK。E-MapReduce将基于RAM的角色功能,向用户提供带有Token的角色AK。所有对资源的操作都可以使用角色AK。这可以带来两个优势:

  1. 基于角色的思路可以让我们为每个集群定义专属的权限范围。例如,这个集群的作业只用到OSS资源,那么我们就限制角色的权限只能访问OSS。甚至,你可以限制这个集群只读只写OSS的某个目录。所有的操作可以在RAM控制台完成。
  2. E-MapReduce会自动维护用户的Token不失效,保证长作业或者Streaming类型作业。

有了MetaService服务,我们可以这么完成上面的操作:

  查看OSS目录

  hadoop fs -ls oss://bucket/dir

  Hive建表

  hive> CREATE EXTERNAL TABLE people (id INT, name STRING)
  hive> ROW FORMAT DELIMITED
  hive> FIELDS TERMINATED BY ''/t'
  hive> LOCATION 'oss://bucket/dir';

  SPARK SHELL

  scala> val data = sc.textFile("oss://bucket/dir")
  scala> data.count

是不是很方便?MetaService本质上是一个HTTP服务,你也可以这么访问它:curl http://localhost:10011/cluster-region,将会得到当前集群所属Region。当前MetaService支持以下路劲:

  • Region: “/cluster-region”
  • 角色名: “/cluster-role-name”
  • AccessKeyId:”/role-access-key-id”
  • AccessKeySecret:”/role-access-key-secret”
  • SecurityToken:”/role-security-token”
  • 网络类型:”/cluster-network-type”

如何开启MetaService

当前,E-MapReduce对MetaService的支持需要满足以下两个条件:

  1. 集群网络环境是VPC
  2. 集群版本高于EMR-2.1.0

有了这两个条件,你就可以在E-MapReduce控制台创建一个VPC集群。 在创建集群的“基础配置”-“权限设置”需要你手动授权一“AliyunEmrEcsDefaultRole”。这个只需要授权一次即可,如果已授权,会校验通过;如果还没有授权,则会校验失败,点击“前往授权”完成授权工作。

规划

EMR-2.1.0版本的MetaService只支持OSS数据源。后续版本将陆续支持更多数据源,例如LogService等等。

注意事项

  1. 当前只提供VPC环境下的MetaService服务。
  2. 谨慎删除,编辑“AliyunEmrEcsDefaultRole”,可能会造成集群创建失败或者作业运行失败。请在知
    晓后果的前提下修改“AliyunEmrEcsDefaultRole”。
相关实践学习
EMR数据湖开发治理之用户画像分析
通过本场景,你可以基于E-MapReduce + DLF + OSS-HDFS + DataWorks在云上快速体验完整的数据湖开发治理方案。
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
目录
相关文章
|
14天前
|
数据库 数据安全/隐私保护
阿里云E-MapReduce集群-开源Ldap密码不安全问题解决方案
社区开源Ldap密码不安全问题解决方案
|
20天前
|
分布式计算 Java API
阿里云E-MapReduce集群不同计算引擎sleep task使用笔记
需求:日常在E-MapReduce集群中进行相关测试,验证一些切换或变更是否会影响业务的运行导致任务failed。所以需要在测试集群中运行指定资源数(vcore及memory)或者指定运行时间的任务。 目前用到MapReduce和spark任务两种,其余的持续更新补充中……
|
25天前
|
存储 弹性计算 资源调度
阿里云E-MapReduce节点优雅下线-基于Yarn Node Labels特性
背景:阿里云E-MapReduce集群(简称EMR集群)部分节点需要下线迁移,但集群资源常年跑满,诉求是节点下线迁移过程中不影响任一任务执行。 本次方案基于Yarn Node Labels的特性进行资源隔离后下线。 下期对官网Graceful Decommission of YARN Nodes的方案进行验证,参考:https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/GracefulDecommission.html。
|
5月前
|
大数据
《阿里云产品手册2022-2023 版》——开源大数据平台 E-MapReduce
《阿里云产品手册2022-2023 版》——开源大数据平台 E-MapReduce
|
5月前
|
存储 运维 资源调度
阿里云E-MapReduce产品新动态及开源大数据前沿技术 2023-4月刊
开源大数据EMR产品技术月刊,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解开源大数据最新动态。
458 1
阿里云E-MapReduce产品新动态及开源大数据前沿技术 2023-4月刊
|
7月前
|
SQL 弹性计算 分布式计算
阿里云开源大数据平台E-MapReduce 产品新动态及开源大数据前沿技术分享 2023-2月刊
开源大数据平台 EMR 产品技术月刊,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解开源大数据最新动态。
9238 5
阿里云开源大数据平台E-MapReduce 产品新动态及开源大数据前沿技术分享 2023-2月刊
|
10月前
|
大数据
《大数据解决方案构建详解 以阿里云E-MapReduce为例》电子版地址
大数据解决方案构建详解 以阿里云E-MapReduce为例
43 0
《大数据解决方案构建详解 以阿里云E-MapReduce为例》电子版地址
|
数据挖掘
初识阿里云E-MapReduce ClickHouse,到底有哪些优势?
本文将从核心能力、主要优势,及典型应用场景为大家继续介绍EMR~
897 0
初识阿里云E-MapReduce ClickHouse,到底有哪些优势?
|
分布式计算 Hadoop C++
第4期:初识阿里云E-MapReduce ClickHouse,到底有哪些优势?
本次将从核心能力、主要优势,及典型应用场景为大家继续介绍EMR~
249 0
第4期:初识阿里云E-MapReduce ClickHouse,到底有哪些优势?
热门文章
最新文章
相关产品
开源大数据平台 E-MapReduce
推荐文章
更多