EMR数据湖开发治理之用户画像分析-1

本文涉及的产品
大数据开发治理平台DataWorks,资源组抵扣包 750CU*H
简介: EMR数据湖开发治理之用户画像分析-1

准备实验环境

1.配置独享资源组的DataWorks工作空间

本步骤将完成独享调度资源组和独享数据集成资源组的DataWorks工作空间配置。

  1. 双击打开远程桌面的Chromium网页浏览器
  2. 在RAM用户登录框中单击下一步,并复制粘贴页面左上角的子用户密码用户密码输入框,单击登录
  3. 复制下方地址,在Chromium网页浏览器打开新页签,粘贴并访问DataWorks管控台。
https://workbench.data.aliyun.com/?#/resourcelist?region=cn-shanghai&tab=exclusive
  1. 在左侧导航栏中,单击资源组列表,分别对调度资源组和数据集成资源组,单击修改归属工作空间

说明:您可在云资源产品列表中查看调度资源组和数据集成资源组的名称。

  1. 分别在调度资源组和数据集成资源组的修改归属工作空间对话框中,选择实验分配的DataWorks工作空间,单击绑定。

注意:由于实验环境有限制性,因此您只能进行“将资源组绑定到自己的工作空间”这一操作,不能修改其它配置,否则会导致后续实验无法进行!

2. 在DataWorks绑定EMR集群

  1. 在导航栏中,单击工作空间列表

  1. 工作空间列表页面,找到您的DataWorks工作空间,在其右侧的操作列下单击工作空间配置

  1. 在配置页面的计算引擎信息区域,选择E-MapReduce,单击增加实例

  1. 在新增E-MapReduce中,参考如下配置相关信息。配置完成之后在资源组初始化区域,单击初始化,进行独享调度资源组与EMR集群的打通。

参数说明:

参数

描述

实例显示名称

自定义实例显示名称。

访问模式

选择快捷模式。

集群ID

选择实验室分配的EMR集群。

  1. 如果网络连通性失败,不要担心,单击查看原因,进行网络连通性诊断;诊断完成后,然后重试即可。

  1. 初始化完成后,点击确定按钮,绑定该引擎实例。

3. 为oss bucket开通HDFS服务并新建目录备用

  1. 复制下方地址,在Chromium网页浏览器打开新页签,粘贴并访问对象存储OSS管控台。
https://oss.console.aliyun.com/bucket
  1. 在左侧导航栏中,单击Bucket列表

  1. 进入以实验室子账号为名的Bucket,选择进入oss bucket的数据湖管理下的HDFS服务,单击开通HDFS服务。

  1. 进入文件管理下的文件列表,单击新建目录

  1. 填写目录名(实例为ip2region),用于存放任务运行所需的jar包资源。

  1. 创建成功后,会在文件列表中展示名为ip2region的目录,后续实验所需的jar包会存在该oss bucket。

目录
相关文章
|
3月前
|
SQL 分布式计算 关系型数据库
Dataphin x Paimon 开箱即用的数据湖治理解决方案
Dataphin深度集成Apache Paimon,通过全链路功能适配和性能优化,为企业提供开箱即用的数据湖治理解决方案。
252 2
|
SQL 分布式计算 Apache
Dataphin x Iceberg 开箱即用的数据湖治理解决方案
Apache Iceberg作为新一代开源数据湖表格式,具备ACID事务、时间旅行和高效Schema演化等能力。Dataphin已完成与Iceberg的深度集成,通过全链路适配与性能优化,为企业提供开箱即用的数据湖治理方案,涵盖数据源支持、离线与实时数据集成、数据研发等核心模块,助力构建现代化数据架构。
243 0
|
8月前
|
存储 分布式计算 OLAP
百观科技基于阿里云 EMR 的数据湖实践分享
百观科技为应对海量复杂数据处理的算力与成本挑战,基于阿里云 EMR 构建数据湖。EMR 依托高可用的 OSS 存储、开箱即用的 Hadoop/Spark/Iceberg 等开源技术生态及弹性调度,实现数据接入、清洗、聚合与分析全流程。通过 DLF 与 Iceberg 的优化、阶梯式弹性调度(资源利用率提升至70%)及倚天 ARM 机型搭配 EMR Trino 方案,兼顾性能与成本,支撑数据分析需求,降低算力成本。
547 59
|
SQL 分布式计算 Serverless
EMR Serverless Spark:一站式全托管湖仓分析利器
本文根据2024云栖大会阿里云 EMR 团队负责人李钰(绝顶) 演讲实录整理而成
735 58
|
12月前
|
SQL 存储 缓存
EMR Serverless StarRocks 全面升级:重新定义实时湖仓分析
本文介绍了EMR Serverless StarRocks的发展路径及其架构演进。首先回顾了Serverless Spark在EMR中的发展,并指出2021年9月StarRocks开源后,OLAP引擎迅速向其靠拢。随后,EMR引入StarRocks并推出全托管产品,至2023年8月商业化,已有500家客户使用,覆盖20多个行业。 文章重点阐述了EMR Serverless StarRocks 1.0的存算一体架构,包括健康诊断、SQL调优和物化视图等核心功能。接着分析了存算一体架构的挑战,如湖访问不优雅、资源隔离不足及冷热数据分层困难等。
|
10月前
|
SQL 分布式计算 Serverless
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
250 0
|
12月前
|
存储 SQL 大数据
从数据存储到分析:构建高效开源数据湖仓解决方案
今年开源大数据迈向湖仓一体(Lake House)时代,重点介绍Open Lake解决方案。该方案基于云原生架构,兼容开源生态,提供开箱即用的数据湖仓产品。其核心优势在于统一数据管理和存储,支持实时与批处理分析,打破多计算产品的数据壁垒。通过阿里云的Data Lake Formation和Apache Paimon等技术,用户可高效搭建、管理并分析大规模数据,实现BI和AI融合,满足多样化数据分析需求。
|
SQL 流计算 关系型数据库
基于OpenLake的Flink+Paimon+EMR StarRocks流式湖仓分析
阿里云OpenLake解决方案建立在开放可控的OpenLake湖仓之上,提供大数据搜索与AI一体化服务。通过元数据管理平台DLF管理结构化、半结构化和非结构化数据,提供湖仓数据表和文件的安全访问及IO加速,并支持大数据、搜索和AI多引擎对接。本文为您介绍以Flink作为Openlake方案的核心计算引擎,通过流式数据湖仓Paimon(使用DLF 2.0存储)和EMR StarRocks搭建流式湖仓。
1079 5
基于OpenLake的Flink+Paimon+EMR StarRocks流式湖仓分析
|
存储 分布式计算 监控
揭秘阿里云EMR:如何巧妙降低你的数据湖成本,让大数据不再昂贵?
【8月更文挑战第26天】阿里云EMR是一种高效的大数据处理服务,助力企业优化数据湖的成本效益。它提供弹性计算资源,支持根据需求调整规模;兼容并优化了Hadoop、Spark等开源工具,提升性能同时降低资源消耗。借助DataWorks及Data Lake Formation等工具,EMR简化了数据湖构建与管理流程,实现了数据的统一化治理。此外,EMR还支持OSS、Table Store等多种存储选项,并配备监控优化工具,确保数据处理流程高效稳定。通过这些措施,EMR帮助企业显著降低了数据处理和存储成本。
503 3