hive 数据源,yarn 集群测试, SQL 分别取 topN4 | 学习笔记

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 快速学习 hive 数据源,yarn 集群测试, SQL 分别取 topN4

开发者学堂课程【大数据实时计算框架Spark快速入门hive 数据源,yarn 集群测试,SQL 分别取 topN4 】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/100/detail/1717


hive 数据源,yarn  集群测试,SQL  分别取  topN4


内容介绍:

一、具体内容

二、开窗函数

三、开窗函数的作用


一、具体内容

如果第一次没有跑成功,那么会在 node  里面再来跑一次,要将三个包,放到ADFS  里面去,不是直接, put  上去的。

我们只是要在代码里面—— jars  里面把三个包传到  ADFS  里面去,把下面的  copy  进去,在里面再执行一次,刚跑了四个模式,只是  yarn,class  ,还需要加——  jars,

其他都不需要加,  upnode  三个包,上传到  ADFS  里面去,这样来跑的话就没有问题。如果  applicationmaster  里面跑两次,第一次没有抛成功,  attempt number   如果第一次成功就不用再尝试第二次了,所以很多时候在跑的时候,看页面,去第一次里面看  log  日志,看8088页面把包名都看成名称了,点applicationmaster   ,每次提交一个  application  都会上传一个包,点一个applicationmaster  就会跳到熟悉的  spark UI  里面来,也就是说如果你把  spark程序通过  unyark  程序来执行的话也是可以看到  applicationUI  的,点applicationmaster  会进入到  tracking UI  里面来,看整个日志,点整个  ID  ,点logs  然后输出日志。正常执行就是有正常输出,集群模式那个  driver  可以用在集群里面,整个信息是在申请资源的信息里面,  master  是申请资源,开始抛起来,真正输出日志的信息就在页面里面,这里面只是抛一下告诉客户端,以及资源的使用情况,就是资源的申请情况。另一边,告诉了一个错就开始尝试第二次了,尝试两次还会有问题,就不再尝试了,这是  yarn  里面默认的机制,默认尝试的次数就是两次,来读  hive  的数据, hive  的数据源,hive  跟  sparksqL  整合在一起,直接可以读到存的地方,可以直接读到表,把  hive——site  存到  spark/conf/  目录下,接着把四种模式执行一遍,就成功了。


二、开窗函数

就是使用  sparkSQL  来做到咱们  topN  ,来读  hive  的数据,不能本级测试,接着删除 sql 表,把本地的数据导到  hive  里面去。


三、开窗函数的作用

就是给每一个分组的数据,按照其排序的顺序,打上一个分组内的标号,比如说有一个分组按照日期来分组,查看三组数据,那么这个分组的每一行使用  row,number  开窗函数以后,这三个行号会打上一个组内的行号,行号是从1开始递增,

比如最后结果是  11211,11212,2,11213,3  那么我们直接从  sql  语句直接看出我们直接对  sales  表开窗。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
21天前
|
SQL JavaScript 前端开发
基于Python访问Hive的pytest测试代码实现
根据《用Java、Python来开发Hive应用》一文,建立了使用Python、来开发Hive应用的方法,产生的代码如下
49 6
基于Python访问Hive的pytest测试代码实现
|
21天前
|
SQL JavaScript 前端开发
基于Java访问Hive的JUnit5测试代码实现
根据《用Java、Python来开发Hive应用》一文,建立了使用Java、来开发Hive应用的方法,产生的代码如下
49 6
|
1月前
|
Kubernetes Linux API
CentOS 7.6使用kubeadm部署k8s 1.17.2测试集群实战篇
该博客文章详细介绍了在CentOS 7.6操作系统上使用kubeadm工具部署kubernetes 1.17.2版本的测试集群的过程,包括主机环境准备、安装Docker、配置kubelet、初始化集群、添加节点、部署网络插件以及配置k8s node节点管理api server服务器。
62 0
CentOS 7.6使用kubeadm部署k8s 1.17.2测试集群实战篇
|
2月前
|
SQL 存储 分布式计算
插入Hive表数据SQL
【8月更文挑战第10天】
|
2月前
|
SQL 物联网 数据处理
"颠覆传统,Hive SQL与Flink激情碰撞!解锁流批一体数据处理新纪元,让数据决策力瞬间爆表,你准备好了吗?"
【8月更文挑战第9天】数据时代,实时性和准确性至关重要。传统上,批处理与流处理各司其职,但Apache Flink打破了这一界限,尤其Flink与Hive SQL的结合,开创了流批一体的数据处理新时代。这不仅简化了数据处理流程,还极大提升了效率和灵活性。例如,通过Flink SQL,可以轻松实现流数据与批数据的融合分析,无需在两者间切换。这种融合不仅降低了技术门槛,还为企业提供了更强大的数据支持,无论是在金融、电商还是物联网领域,都将发挥巨大作用。
44 6
|
3月前
|
SQL 弹性计算 资源调度
云服务器 ECS产品使用问题之bin/spark-sql --master yarn如何进行集群模式运行
云服务器ECS(Elastic Compute Service)是各大云服务商阿里云提供的一种基础云计算服务,它允许用户租用云端计算资源来部署和运行各种应用程序。以下是一个关于如何使用ECS产品的综合指南。
|
2月前
|
分布式计算 大数据 Hadoop
最快方式搭建docker大数据 测试集群
【8月更文挑战第5天】快速搭建Docker大数据测试集群可采用预构建镜像与Compose文件、利用云服务如AWS的ECS、自动化工具如Ansible或参考在线教程。只需简单配置如内存分配及路径,运行`docker-compose up`即可启动含NameNode、DataNode等组件的Hadoop集群。根据需求与资源选择合适方法。
|
3月前
|
SQL 分布式计算 关系型数据库
Hadoop-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
Hadoop-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
47 2
|
3月前
|
SQL 关系型数据库 MySQL
实时计算 Flink版产品使用问题之如何使用Flink SQL连接带有Kerberos认证的Hive
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
下一篇
无影云桌面