EMR数据湖开发治理之用户画像分析-1

本文涉及的产品
大数据开发治理平台 DataWorks,不限时长
简介: EMR数据湖开发治理之用户画像分析-1

准备实验环境

1.配置独享资源组的DataWorks工作空间

本步骤将完成独享调度资源组和独享数据集成资源组的DataWorks工作空间配置。

  1. 双击打开远程桌面的Chromium网页浏览器
  2. 在RAM用户登录框中单击下一步,并复制粘贴页面左上角的子用户密码用户密码输入框,单击登录
  3. 复制下方地址,在Chromium网页浏览器打开新页签,粘贴并访问DataWorks管控台。
https://workbench.data.aliyun.com/?#/resourcelist?region=cn-shanghai&tab=exclusive
  1. 在左侧导航栏中,单击资源组列表,分别对调度资源组和数据集成资源组,单击修改归属工作空间

说明:您可在云资源产品列表中查看调度资源组和数据集成资源组的名称。

  1. 分别在调度资源组和数据集成资源组的修改归属工作空间对话框中,选择实验分配的DataWorks工作空间,单击绑定。

注意:由于实验环境有限制性,因此您只能进行“将资源组绑定到自己的工作空间”这一操作,不能修改其它配置,否则会导致后续实验无法进行!

2. 在DataWorks绑定EMR集群

  1. 在导航栏中,单击工作空间列表

  1. 工作空间列表页面,找到您的DataWorks工作空间,在其右侧的操作列下单击工作空间配置

  1. 在配置页面的计算引擎信息区域,选择E-MapReduce,单击增加实例

  1. 在新增E-MapReduce中,参考如下配置相关信息。配置完成之后在资源组初始化区域,单击初始化,进行独享调度资源组与EMR集群的打通。

参数说明:

参数

描述

实例显示名称

自定义实例显示名称。

访问模式

选择快捷模式。

集群ID

选择实验室分配的EMR集群。

  1. 如果网络连通性失败,不要担心,单击查看原因,进行网络连通性诊断;诊断完成后,然后重试即可。

  1. 初始化完成后,点击确定按钮,绑定该引擎实例。

3. 为oss bucket开通HDFS服务并新建目录备用

  1. 复制下方地址,在Chromium网页浏览器打开新页签,粘贴并访问对象存储OSS管控台。
https://oss.console.aliyun.com/bucket
  1. 在左侧导航栏中,单击Bucket列表

  1. 进入以实验室子账号为名的Bucket,选择进入oss bucket的数据湖管理下的HDFS服务,单击开通HDFS服务。

  1. 进入文件管理下的文件列表,单击新建目录

  1. 填写目录名(实例为ip2region),用于存放任务运行所需的jar包资源。

  1. 创建成功后,会在文件列表中展示名为ip2region的目录,后续实验所需的jar包会存在该oss bucket。

目录
相关文章
|
2月前
|
存储 缓存 安全
阿里云EMR数据湖文件系统: 面向开源和云打造下一代 HDFS
本文作者详细地介绍了阿里云EMR数据湖文件系统JindoFS的起源、发展迭代以及性能。
72360 79
|
2月前
|
存储 消息中间件 SQL
基于 Apache Hudi 构建分析型数据湖
基于 Apache Hudi 构建分析型数据湖
40 4
|
2月前
|
存储 SQL 算法
图加速数据湖分析-GeaFlow和Apache Hudi集成
图加速数据湖分析-GeaFlow和Apache Hudi集成
36 3
|
8月前
|
存储 数据采集 安全
什么是数据管理,数据治理,数据中心,数据中台,数据湖?
什么是数据管理,数据治理,数据中心,数据中台,数据湖?
207 0
|
10月前
|
存储 分布式计算 OLAP
深度干货|谈谈阿里云AnalyticDB Spark如何构建低成本数据湖分析
本文将分享AnalyticDB MySQL Spark助力构建低成本数据湖分析的最佳实践。
|
11月前
|
分布式计算 DataWorks 对象存储
全链路数据湖开发治理解决方案2.0重磅升级,全面增强数据入湖、调度和治理能力
阿里云全链路数据湖开发治理解决方案能力持续升级,发布2.0版本。解决方案包含开源大数据平台E-MapReduce(EMR) , 一站式大数据数据开发治理平台DataWorks ,数据湖构建DLF,对象存储OSS等核心产品。支持EMR新版数据湖DataLake集群(on ECS)、自定义集群(on ECS)、Spark集群(on ACK)三种形态,对接阿里云一站式大数据开发治理平台DataWorks,沉淀阿里巴巴十多年大数据建设方法论,为客户完成从入湖、建模、开发、调度、治理、安全等全链路数据湖开发治理能力,帮助客户提升数据的应用效率。
1361 1
|
10月前
|
SQL 弹性计算 分布式计算
使用EMR+DLF+OSS-HDFS进行数据湖分析
本实验通过使用EMR,搭建EMR集群,对OSS-HDFS进行数据湖分析
624 0
|
12月前
|
存储 SQL 分布式计算
图加速数据湖分析-GeaFlow和Hudi集成
本文主要分析了表模型的现状和问题,然后介绍了图模型在处理关系运算上的优势,接着介绍了图计算引擎GeaFlow和数据湖格式hudi的整合,利用图计算引擎加速数据湖上的关系运算.
图加速数据湖分析-GeaFlow和Hudi集成
|
12月前
|
SQL 机器学习/深度学习 存储
阿里云数据湖分析简介和购买流程
云原生数据湖分析(简称DLA)是新一代大数据解决方案,采取计算与存储完全分离的架构,支持数据库(RDS\PolarDB\NoSQL)与消息实时归档建仓,提供弹性的Spark与Presto,满足在线交互式查询、流处理、批处理、机器学习等诉求,也是传统Hadoop方案上云的有竞争力的解决方案。
|
存储 数据采集 分布式计算
数据湖架构的优势与挑战:数据存储和分析策略
随着大数据时代的到来,数据湖架构逐渐成为许多企业进行数据存储和分析的首选方案。数据湖是一种用于存储大量原始和结构化数据的中心化存储库。在本文中,我们将深入探讨数据湖架构的优势和挑战,并介绍一些常见的数据存储和分析策略。
375 0