OSS数据湖实践——EMR + Hive + OSS案例-阿里云开发者社区

开发者社区> huangchuang> 正文

OSS数据湖实践——EMR + Hive + OSS案例

简介: 构建基于OSS数据源的EMR大数据计算环境,使用Hive分析工具,实现简单的大数据分析案例。
+关注继续查看

Hive是一种建立在Hadoop文件系统上的数据仓库架构,并对存储在HDFS中的数据进行分析和管理;本文通过一个简单的示例来展现如何结合OSS+EMR+Hive来分析OSS上的数据。

前提条件

• 已注册阿里云账号,详情请参见注册云账号。
• 已开通E-MapReduce服务和OSS服务。
• 已完成云账号的授权,详情请参见角色授权。
• 已创建Haoop集群,且带有Hive组件, 且配置好OSS数据源。

步骤一:上传数据至OSS

hadoop fs -put course.csv oss://your-bucket-name/

步骤二:创建Hive作业开发页面

1589442729443_30a77d9f_a248_4cff_860e_c247b9ff5051

步骤三:SQL 实现

创建数据表

CREATE TABLE course (num INT, subject string, level string) row format delimited fields terminated by "," location "/";

导入数据

LOAD DATA INPATH 'oss://your-bucket-name/course.csv' INTO TABLE course;

查询语句

select A.suject, A.level, A.count from (select suject, level, count(*) 
as count  from course group by suject , level) A join (select B.suject as suject, 
max(B.count) as count from (select suject, level, count(*) as count  from course 
group by suject , level) B group by B.suject ) C on A.suject=C.suject and A.count = C.count;

步骤四:查看日志和结果

1589454637317_67a1eb3a_c510_4587_bf74_38c127d9d84b
1589454662531_58b3c7dd_2564_41a0_a5ab_0d4c25a7bdca

步骤五:总结

通过该实例,能够了解从数据上传至OSS到在EMR集群上使用hive 分析该数据的整个过程,为深入学习和使用奠定基础。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
用引导操作打通presto访问oss数据
目前EMR Presto 已经完全支持 OSS 访问,如有其他 Presto 集群访问 OSS 需求,请安装 JindoFS SDK,可以直接访问 oss https://developer.aliyun.com/article/767222
4720 0
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
4054 0
自定义LOG投递OSS数据Partition,优化你的计算
数据划分Partition OSS数据存储具有高可靠、低成本等优点,是海量数据存储的最佳选择之一,尤其适用于半结构化的日志存储,并可以结合E-MapReduce(使用Hive、Impala等计算引擎)通过schema-on-read方式加载数据做查询分析。
3981 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
4397 0
使用OpenApi弹性释放和设置云服务器ECS释放
云服务器ECS的一个重要特性就是按需创建资源。您可以在业务高峰期按需弹性的自定义规则进行资源创建,在完成业务计算的时候释放资源。本篇将提供几个Tips帮助您更加容易和自动化的完成云服务器的释放和弹性设置。
7734 0
数据湖实操讲解【OSS 访问加速】第十讲:Impala 如何高效查询 OSS 数据
数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs
2950 0
IOS实例方法和类方法的区别
类方法和实例方法   实例方法是— 类开头是+ 实例方法是用实例对象访问,类方法的对象是类而不是实例,通常创建对象或者工具类。 在实例方法里,根据继承原理发送消息给self和super其实都是发送给self 在类方法里面self是其他的类的类方法,在类方法中给self发送消息只能发类...
550 0
运维编排场景系列----从实例中拷贝文件到OSS
### 场景简介 我们经常会有这样的运维场景,从某台线上的机器把日志文件拷贝出来或者是进程卡主了 jstack一下输出到某个文件里然后进行分析。我们使用osscmd把数据导到oss里,但是手动配置过程实在是太太太麻烦了。
1435 0
+关注
6
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载