文档备案控制台

开发者社区开发与运维文章正文

EMR数据湖开发治理之用户画像分析-1

2023-02-14 471

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： EMR数据湖开发治理之用户画像分析-1

准备实验环境

1.配置独享资源组的DataWorks工作空间

本步骤将完成独享调度资源组和独享数据集成资源组的DataWorks工作空间配置。

双击打开远程桌面的Chromium网页浏览器。
在RAM用户登录框中单击下一步，并复制粘贴页面左上角的子用户密码到用户密码输入框，单击登录。
复制下方地址，在Chromium网页浏览器打开新页签，粘贴并访问DataWorks管控台。

https://workbench.data.aliyun.com/?#/resourcelist?region=cn-shanghai&tab=exclusive

在左侧导航栏中，单击资源组列表，分别对调度资源组和数据集成资源组，单击修改归属工作空间。

说明：您可在云资源产品列表中查看调度资源组和数据集成资源组的名称。

分别在调度资源组和数据集成资源组的修改归属工作空间对话框中，选择实验分配的DataWorks工作空间，单击绑定。

注意：由于实验环境有限制性，因此您只能进行“将资源组绑定到自己的工作空间”这一操作，不能修改其它配置，否则会导致后续实验无法进行！

2. 在DataWorks绑定EMR集群

在导航栏中，单击工作空间列表。

在工作空间列表页面，找到您的DataWorks工作空间，在其右侧的操作列下单击工作空间配置。

在配置页面的计算引擎信息区域，选择E-MapReduce，单击增加实例。

在新增E-MapReduce中，参考如下配置相关信息。配置完成之后在资源组初始化区域，单击初始化，进行独享调度资源组与EMR集群的打通。

参数说明：

参数	描述
实例显示名称	自定义实例显示名称。
访问模式	选择快捷模式。
集群ID	选择实验室分配的EMR集群。

如果网络连通性失败，不要担心，单击查看原因，进行网络连通性诊断；诊断完成后，然后重试即可。

初始化完成后，点击确定按钮，绑定该引擎实例。

3. 为oss bucket开通HDFS服务并新建目录备用

复制下方地址，在Chromium网页浏览器打开新页签，粘贴并访问对象存储OSS管控台。

https://oss.console.aliyun.com/bucket

在左侧导航栏中，单击Bucket列表。

进入以实验室子账号为名的Bucket，选择进入oss bucket的数据湖管理下的HDFS服务，单击开通HDFS服务。

进入文件管理下的文件列表，单击新建目录。

填写目录名(实例为ip2region)，用于存放任务运行所需的jar包资源。

创建成功后，会在文件列表中展示名为ip2region的目录，后续实验所需的jar包会存在该oss bucket。

文章标签：

数据集成 Data Integration

大数据开发治理平台 DataWorks

Java

搜索推荐

数据安全/隐私保护

对象存储

调度

DataWorks

关键词：

数据湖分析

数据湖治理

emr数据湖

emr分析

数据湖emr

随洋

目录

相关文章

瓴羊Dataphin

|

10月前

|

SQL 分布式计算关系型数据库

Dataphin x Paimon 开箱即用的数据湖治理解决方案

Dataphin深度集成Apache Paimon，通过全链路功能适配和性能优化，为企业提供开箱即用的数据湖治理解决方案。

瓴羊Dataphin

536 2 2

阿里云大数据

|

存储分布式计算 OLAP

百观科技基于阿里云 EMR 的数据湖实践分享

百观科技为应对海量复杂数据处理的算力与成本挑战，基于阿里云 EMR 构建数据湖。EMR 依托高可用的 OSS 存储、开箱即用的 Hadoop/Spark/Iceberg 等开源技术生态及弹性调度，实现数据接入、清洗、聚合与分析全流程。通过 DLF 与 Iceberg 的优化、阶梯式弹性调度（资源利用率提升至70%）及倚天 ARM 机型搭配 EMR Trino 方案，兼顾性能与成本，支撑数据分析需求，降低算力成本。

阿里云大数据

949 59 59

瓴羊Dataphin

|

SQL 分布式计算 Apache

Dataphin x Iceberg 开箱即用的数据湖治理解决方案

Apache Iceberg作为新一代开源数据湖表格式，具备ACID事务、时间旅行和高效Schema演化等能力。Dataphin已完成与Iceberg的深度集成，通过全链路适配与性能优化，为企业提供开箱即用的数据湖治理方案，涵盖数据源支持、离线与实时数据集成、数据研发等核心模块，助力构建现代化数据架构。

瓴羊Dataphin

539 0 0

扬流

|

SQL 分布式计算 Serverless

EMR Serverless Spark：一站式全托管湖仓分析利器

本文根据2024云栖大会阿里云 EMR 团队负责人李钰（绝顶）演讲实录整理而成

扬流

1082 58 58

技术内容小助手

|

SQL 存储缓存

EMR Serverless StarRocks 全面升级：重新定义实时湖仓分析

本文介绍了EMR Serverless StarRocks的发展路径及其架构演进。首先回顾了Serverless Spark在EMR中的发展，并指出2021年9月StarRocks开源后，OLAP引擎迅速向其靠拢。随后，EMR引入StarRocks并推出全托管产品，至2023年8月商业化，已有500家客户使用，覆盖20多个行业。文章重点阐述了EMR Serverless StarRocks 1.0的存算一体架构，包括健康诊断、SQL调优和物化视图等核心功能。接着分析了存算一体架构的挑战，如湖访问不优雅、资源隔离不足及冷热数据分层困难等。

技术内容小助手

584 17 17

墨祤

|

SQL 流计算关系型数据库

基于OpenLake的Flink+Paimon+EMR StarRocks流式湖仓分析

阿里云OpenLake解决方案建立在开放可控的OpenLake湖仓之上，提供大数据搜索与AI一体化服务。通过元数据管理平台DLF管理结构化、半结构化和非结构化数据，提供湖仓数据表和文件的安全访问及IO加速，并支持大数据、搜索和AI多引擎对接。本文为您介绍以Flink作为Openlake方案的核心计算引擎，通过流式数据湖仓Paimon（使用DLF 2.0存储）和EMR StarRocks搭建流式湖仓。

墨祤

1508 5 5

基于OpenLake的Flink+Paimon+EMR StarRocks流式湖仓分析

技术内容小助手

|

存储 SQL 大数据

从数据存储到分析：构建高效开源数据湖仓解决方案

今年开源大数据迈向湖仓一体（Lake House）时代，重点介绍Open Lake解决方案。该方案基于云原生架构，兼容开源生态，提供开箱即用的数据湖仓产品。其核心优势在于统一数据管理和存储，支持实时与批处理分析，打破多计算产品的数据壁垒。通过阿里云的Data Lake Formation和Apache Paimon等技术，用户可高效搭建、管理并分析大规模数据，实现BI和AI融合，满足多样化数据分析需求。

技术内容小助手

1496 7 7

技术小达人

|

SQL 分布式计算 Serverless

基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用

基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用

技术小达人

405 0 0

土木林森

|

存储分布式计算监控

揭秘阿里云EMR：如何巧妙降低你的数据湖成本，让大数据不再昂贵？

【8月更文挑战第26天】阿里云EMR是一种高效的大数据处理服务，助力企业优化数据湖的成本效益。它提供弹性计算资源，支持根据需求调整规模；兼容并优化了Hadoop、Spark等开源工具，提升性能同时降低资源消耗。借助DataWorks及Data Lake Formation等工具，EMR简化了数据湖构建与管理流程，实现了数据的统一化治理。此外，EMR还支持OSS、Table Store等多种存储选项，并配备监控优化工具，确保数据处理流程高效稳定。通过这些措施，EMR帮助企业显著降低了数据处理和存储成本。

土木林森

659 3 3

热门文章

最新文章

重磅下载！首次揭秘如何构建阿里云云原生数据湖体系

如何用好云原生数据湖？

B 站构建实时数据湖的探索和实践

基于 Flink+Iceberg 构建企业级实时数据湖

数据湖与数据仓库：初学者的指南

MiniMax云上AI数据湖最佳实践

抖音集团基于Paimon的流式数据湖应用实践

数据湖架构构建与技术解析 | 开发者社区精选文章合集（二十）

数据湖实操讲解【 AI 训练加速】第十八讲：Fluid + JindoFS 对海量小文件的训练加速

什么是数据管理，数据治理，数据中心，数据中台，数据湖？

阿里云EMR Serverless StarRocks 内容合集

阿里云 EMR Serverless Spark：面向 Data+AI 的高性能 Lakehouse 产品

一体系数据平台的进化：基于阿里云 EMR Serverless Spark 的持续演进

大型医院HIS，EMR，LIS，PACS源码

鹰角网络：EMR Serverless Spark 在《明日方舟》游戏业务的应用

千万级数据秒级响应！碧桂园基于 EMR Serverless StarRocks 升级存算分离架构实践

百观科技基于阿里云 EMR 的数据湖实践分享

中小医院云HIS系统源码，系统融合HIS与EMR功能，采用B/S架构与SaaS模式，快速交付并简化运维

阿里云 EMR Serverless StarRocks3.x，极速统一的湖仓新范式

基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用

相关课程

更多

EMR Serverless StarRocks 3.1 存算分离介绍

EMR Serverless StarRocks 介绍

企业运维训练营之大数据EMR原理与实践

大数据知识图谱系列—如何选择合适的OLAP引擎进行数据湖分析

EMR Studio 大数据处理最佳实践课程

阿里云 EMR on ACK 实战

相关电子书

更多

基于数据湖的精准广告投放系统技术解密

企业数据上云构建数据湖的正确姿势

基于MaxCompute快速打通数仓和数据湖：湖仓一体实践

相关实验场景

更多

基于EMR StarRocks实现游戏玩家画像和行为分析

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！