冬季实战营第五期学习报告1:基于EMR离线数据分析

简介: 本实验免费提供EMR集群,基于EMR集群进行离线数据分析。

简介
数据量爆发式增长的今天,数字化转型成为IT行业的热点,数据需要更深度的价值挖掘,应对未来不断变化的需求。海量离线数据分析可以应用于多种商业系统环境,例如电商海量日志分析、用户行为画像分析、科研行业的海量离线计算分析任务等场景。

本场景将通过开通登录EMR Hadoop集群,简单进行hive操作,使用hive对数据进行加载,计算等操作。展示了如何构建弹性低成本的离线大数据分析。

背景知识
E-MapReduce(简称“EMR”)是云原生开源大数据平台,向客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、Clickhouse、Delta、Hudi等开源大数据计算和存储引擎。EMR计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK、专有云平台。产品文档地址:https://www.aliyun.com/product/emapreduce

产品优势

开源生态:提供高性能、稳定版本Hadoop、Spark、Hive、Flink、Kafka、HBase、Presto、Impala、Hudi等开源大数据组件,客户可根据场景灵活搭配使用

引擎优化:多引擎性能优化,如Spark SQL较开源版本提升6倍。采用JindoFS+OSS,保证数据可靠性基础上,性能大幅提升

便捷运维:在阿里云控制台和OpenAPI方便地对集群、节点和服务进行监控和运维操作。助您大幅提升运维工作效率,让数据工程师更专注于业务开发

节约成本:集群资源可自动按需匹配,您只需要按实际使用量付费,减少资源浪费成本。支持阿里云抢占式实例、预留实例券(RI),进一步降低成本

弹性资源:可以灵活调整集群资源,在数分钟内创建出基于云服务器 ECS、容器 ACK的集群,快速响应业务需求

安全可靠:通过 VPC 和安全组设置集群网络安全策略,支持Kerberos身份认证和数据加密,使用Ranger数据访问控制。支持数据加密,保证数据安全

体验过程

  1. 创建资源
  2. 登陆集群
  3. 上传数据到HDFS
  4. 使用hive创建表
  5. 对表进行操作

体验收获
体验此场景后,可以掌握的知识:
1.EMR集群的基本操作,对EMR产品有初步的了解
2.EMR集群的数据传输和hive的简单操作,对如何进行离线大数据分析有初步的掌握

相关文章
|
1月前
|
数据采集 机器学习/深度学习 数据可视化
深入学习NumPy库在数据分析中的应用场景
深入学习NumPy库在数据分析中的应用场景
|
1月前
|
机器学习/深度学习 存储 SQL
15个超级棒的外文免费数据集,学习数据分析不愁没有数据用了!
15个超级棒的外文免费数据集,学习数据分析不愁没有数据用了!
|
9月前
|
关系型数据库 分布式数据库 对象存储
沉浸式学习PostgreSQL|PolarDB 5: 零售连锁、工厂等数字化率较低场景的数据分析
零售连锁, 制作业的工厂等场景中, 普遍数字化率较低, 通常存在这些问题: 数据离线, 例如每天盘点时上传, 未实现实时汇总到数据库中. 数据格式多, 例如excel, csv, txt, 甚至纸质手抄. 让我们一起来思考一下, 如何使用较少的投入实现数据汇总分析?
228 0
|
1天前
|
存储 机器学习/深度学习 缓存
如何使用PySpark进行离线数据分析?
【6月更文挑战第15天】如何使用PySpark进行离线数据分析?
15 10
|
30天前
|
数据采集 人工智能 数据挖掘
「一行分析」利用12000条招聘数据分析Python学习方向和就业方向
「一行分析」利用12000条招聘数据分析Python学习方向和就业方向
|
1月前
|
SQL 数据可视化 数据挖掘
EMR Notebook 开启公测,提供交互式数据分析平台
EMR Notebook 是一个 Serverless 化的交互式数据分析和探索平台,满足大数据和 AI 融合下的数据处理需求,现已开启免费公测,欢迎体验!
244 3
|
1月前
|
机器学习/深度学习 数据可视化 算法
从零到精通:学习这些R语言必学包成为数据分析高手!
从零到精通:学习这些R语言必学包成为数据分析高手!
54 0
|
8月前
|
分布式计算 数据可视化 数据挖掘
06 离线数据分析流程介绍
06 离线数据分析流程介绍
54 0
|
10月前
|
供应链 安全 数据挖掘
从北京疫情处理中学习如何做数据分析
从北京疫情处理中学习如何做数据分析
|
存储 SQL JSON
【Python学习】一文总结:数据分析库pandas基础
pandas是一款优秀的用于数据分析/挖掘的第三方库,在数据分析场景中非常常用,本文基于《Python 数据分析库 Pandas 快速入门》视频,对pandas的基础用法进行了总结。
181 0