OSS数据湖实践——EMR + Hive + OSS案例

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储 OSS,内容安全 1000次 1年
简介: 构建基于OSS数据源的EMR大数据计算环境,使用Hive分析工具,实现简单的大数据分析案例。

Hive是一种建立在Hadoop文件系统上的数据仓库架构,并对存储在HDFS中的数据进行分析和管理;本文通过一个简单的示例来展现如何结合OSS+EMR+Hive来分析OSS上的数据。

前提条件

• 已注册阿里云账号,详情请参见注册云账号。
• 已开通E-MapReduce服务和OSS服务。
• 已完成云账号的授权,详情请参见角色授权。
• 已创建Haoop集群,且带有Hive组件, 且配置好OSS数据源。

步骤一:上传数据至OSS

hadoop fs -put course.csv oss://your-bucket-name/

步骤二:创建Hive作业开发页面

1589442729443_30a77d9f_a248_4cff_860e_c247b9ff5051

步骤三:SQL 实现

创建数据表

CREATE TABLE course (num INT, subject string, level string) row format delimited fields terminated by "," location "/";

导入数据

LOAD DATA INPATH 'oss://your-bucket-name/course.csv' INTO TABLE course;

查询语句

select A.suject, A.level, A.count from (select suject, level, count(*) 
as count  from course group by suject , level) A join (select B.suject as suject, 
max(B.count) as count from (select suject, level, count(*) as count  from course 
group by suject , level) B group by B.suject ) C on A.suject=C.suject and A.count = C.count;

步骤四:查看日志和结果

1589454637317_67a1eb3a_c510_4587_bf74_38c127d9d84b
1589454662531_58b3c7dd_2564_41a0_a5ab_0d4c25a7bdca

步骤五:总结

通过该实例,能够了解从数据上传至OSS到在EMR集群上使用hive 分析该数据的整个过程,为深入学习和使用奠定基础。

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
目录
相关文章
|
6月前
|
SQL 大数据 HIVE
Hive 任务调优实践总结
Hive 任务调优实践总结
60 0
|
SQL 分布式计算 资源调度
线上 hive on spark 作业执行超时问题排查案例分享
线上 hive on spark 作业执行超时问题排查案例分享
|
6月前
|
SQL 关系型数据库 MySQL
Sqoop【付诸实践 01】Sqoop1最新版 MySQL与HDFS\Hive\HBase 核心导入导出案例分享+多个WRAN及Exception问题处理(一篇即可学会在日常工作中使用Sqoop)
【2月更文挑战第9天】Sqoop【付诸实践 01】Sqoop1最新版 MySQL与HDFS\Hive\HBase 核心导入导出案例分享+多个WRAN及Exception问题处理(一篇即可学会在日常工作中使用Sqoop)
266 7
|
3月前
|
存储 机器学习/深度学习 弹性计算
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决
|
6月前
|
SQL 分布式计算 监控
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
本文演示了使用 EMR Serverless Spark 产品搭建一个日志分析应用的全流程,包括数据开发和生产调度以及交互式查询等场景。
56597 7
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
|
6月前
|
存储 JSON 前端开发
Javaweb之SpringBootWeb案例之阿里云OSS服务集成的详细解析
Javaweb之SpringBootWeb案例之阿里云OSS服务集成的详细解析
196 0
|
6月前
|
存储 开发工具 对象存储
Javaweb之SpringBootWeb案例之阿里云OSS服务入门的详细解析
Javaweb之SpringBootWeb案例之阿里云OSS服务入门的详细解析
128 0
|
6月前
|
存储 文字识别 安全
Javaweb之SpringBootWeb案例之阿里云OSS服务的详细解析
Javaweb之SpringBootWeb案例之阿里云OSS服务的详细解析
196 0
|
6月前
|
SQL HIVE 索引
Hive窗口函数案例总结
Hive窗口函数案例总结
|
6月前
|
SQL 存储 Apache
流数据湖平台Apache Paimon(四)集成 Hive 引擎
流数据湖平台Apache Paimon(四)集成 Hive 引擎
469 0

热门文章

最新文章