OSS数据湖实践——EMR + Hive + OSS案例-阿里云开发者社区

开发者社区> huangchuang> 正文

OSS数据湖实践——EMR + Hive + OSS案例

简介: 构建基于OSS数据源的EMR大数据计算环境,使用Hive分析工具,实现简单的大数据分析案例。
+关注继续查看

Hive是一种建立在Hadoop文件系统上的数据仓库架构,并对存储在HDFS中的数据进行分析和管理;本文通过一个简单的示例来展现如何结合OSS+EMR+Hive来分析OSS上的数据。

前提条件

• 已注册阿里云账号,详情请参见注册云账号。
• 已开通E-MapReduce服务和OSS服务。
• 已完成云账号的授权,详情请参见角色授权。
• 已创建Haoop集群,且带有Hive组件, 且配置好OSS数据源。

步骤一:上传数据至OSS

hadoop fs -put course.csv oss://your-bucket-name/

步骤二:创建Hive作业开发页面

1589442729443_30a77d9f_a248_4cff_860e_c247b9ff5051

步骤三:SQL 实现

创建数据表

CREATE TABLE course (num INT, subject string, level string) row format delimited fields terminated by "," location "/";

导入数据

LOAD DATA INPATH 'oss://your-bucket-name/course.csv' INTO TABLE course;

查询语句

select A.suject, A.level, A.count from (select suject, level, count(*) 
as count  from course group by suject , level) A join (select B.suject as suject, 
max(B.count) as count from (select suject, level, count(*) as count  from course 
group by suject , level) B group by B.suject ) C on A.suject=C.suject and A.count = C.count;

步骤四:查看日志和结果

1589454637317_67a1eb3a_c510_4587_bf74_38c127d9d84b
1589454662531_58b3c7dd_2564_41a0_a5ab_0d4c25a7bdca

步骤五:总结

通过该实例,能够了解从数据上传至OSS到在EMR集群上使用hive 分析该数据的整个过程,为深入学习和使用奠定基础。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
计算机基础2 | 学习笔记
快速学习计算机基础2。
10 0
一文快速搞定Redis_数据类型及JavaApi操作
大家好,我是**ChinaManor**,直译过来就是中国码农的意思,我希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,平凡但不甘于平庸的人。
7 0
计算机基础1 | 学习笔记
快速学习计算机基础1。
7 0
Vue 仿钉钉流程图(流程节点绘制 vue+Ant【如果用其他UI库需要替换几个组件】 附 demo)
# [这里是git地址](https://gitee.com/xiaoyaoluntian/imitating-dingding-flow-chart/tree/comdemo/)
6 0
一文快速搞懂系列__一文快速搞懂SuperSet[实战案例]
大家好,我是**ChinaManor**,直译过来就是中国码农的意思,俺希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,平凡但不甘于平庸的人。
8 0
数据类型-数值和字符串 | 学习笔记
快速学习数据类型-数值和字符串。
5 0
一文快速了解ClickHouse 战斗民族的开源搜索引擎(超详细解读+快速入门)
大家好,我是**ChinaManor**,直译过来就是中国码农的意思,俺希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,一个平凡而不平庸的人。
8 0
PG+MySQL第9课-实时精准营销
通常业务场景会涉及基于标签条件圈选目标客户、基于用户特征值扩选相似人群、群体用户画像分析这些技术,本文将围绕这三个场景去介绍在实施精准营销里面的PG数据库的使用
5 0
Redis高可用架构演进
Redis是目前使用最广泛的缓存程序之一,也被应用于多种场景,例如数据缓存、分布式锁等,Redis官方提供了多种部署架构,以满足不同应用场景下对于高可用和扩展性的要求。
6 0
MySQL高可用架构演进
MySQL是数据库领域当之无愧的霸主之一,其在各行各业被广泛应用,随着广泛使用,对于MySQL本身的高可用性的要求就是不可避免的话题,而MySQL的高可用方案也随着MySQL功能的完善经历了多次升级,本文将对MySQL的各种高可用架构进行分析,以此来了解架构的演进。
6 0
+关注
6
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载