hive 数据源,yarn 集群测试, SQL 分别取 topN4 | 学习笔记

简介: 快速学习 hive 数据源,yarn 集群测试, SQL 分别取 topN4

开发者学堂课程【大数据实时计算框架Spark快速入门hive 数据源,yarn 集群测试,SQL 分别取 topN4 】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/100/detail/1717


hive 数据源,yarn  集群测试,SQL  分别取  topN4


内容介绍:

一、具体内容

二、开窗函数

三、开窗函数的作用


一、具体内容

如果第一次没有跑成功,那么会在 node  里面再来跑一次,要将三个包,放到ADFS  里面去,不是直接, put  上去的。

我们只是要在代码里面—— jars  里面把三个包传到  ADFS  里面去,把下面的  copy  进去,在里面再执行一次,刚跑了四个模式,只是  yarn,class  ,还需要加——  jars,

其他都不需要加,  upnode  三个包,上传到  ADFS  里面去,这样来跑的话就没有问题。如果  applicationmaster  里面跑两次,第一次没有抛成功,  attempt number   如果第一次成功就不用再尝试第二次了,所以很多时候在跑的时候,看页面,去第一次里面看  log  日志,看8088页面把包名都看成名称了,点applicationmaster   ,每次提交一个  application  都会上传一个包,点一个applicationmaster  就会跳到熟悉的  spark UI  里面来,也就是说如果你把  spark程序通过  unyark  程序来执行的话也是可以看到  applicationUI  的,点applicationmaster  会进入到  tracking UI  里面来,看整个日志,点整个  ID  ,点logs  然后输出日志。正常执行就是有正常输出,集群模式那个  driver  可以用在集群里面,整个信息是在申请资源的信息里面,  master  是申请资源,开始抛起来,真正输出日志的信息就在页面里面,这里面只是抛一下告诉客户端,以及资源的使用情况,就是资源的申请情况。另一边,告诉了一个错就开始尝试第二次了,尝试两次还会有问题,就不再尝试了,这是  yarn  里面默认的机制,默认尝试的次数就是两次,来读  hive  的数据, hive  的数据源,hive  跟  sparksqL  整合在一起,直接可以读到存的地方,可以直接读到表,把  hive——site  存到  spark/conf/  目录下,接着把四种模式执行一遍,就成功了。


二、开窗函数

就是使用  sparkSQL  来做到咱们  topN  ,来读  hive  的数据,不能本级测试,接着删除 sql 表,把本地的数据导到  hive  里面去。


三、开窗函数的作用

就是给每一个分组的数据,按照其排序的顺序,打上一个分组内的标号,比如说有一个分组按照日期来分组,查看三组数据,那么这个分组的每一行使用  row,number  开窗函数以后,这三个行号会打上一个组内的行号,行号是从1开始递增,

比如最后结果是  11211,11212,2,11213,3  那么我们直接从  sql  语句直接看出我们直接对  sales  表开窗。

相关实践学习
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
相关文章
|
SQL 分布式计算 资源调度
Dataphin功能Tips系列(48)-如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列
如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列
493 4
|
测试技术
自动化测试项目学习笔记(五):Pytest结合allure生成测试报告以及重构项目
本文介绍了如何使用Pytest和Allure生成自动化测试报告。通过安装allure-pytest和配置环境,可以生成包含用例描述、步骤、等级等详细信息的美观报告。文章还提供了代码示例和运行指南,以及重构项目时的注意事项。
1707 1
自动化测试项目学习笔记(五):Pytest结合allure生成测试报告以及重构项目
|
SQL 分布式计算 Hadoop
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
352 4
|
测试技术 Python
自动化测试项目学习笔记(四):Pytest介绍和使用
本文是关于自动化测试框架Pytest的介绍和使用。Pytest是一个功能丰富的Python测试工具,支持参数化、多种测试类型,并拥有众多第三方插件。文章讲解了Pytest的编写规则、命令行参数、执行测试、参数化处理以及如何使用fixture实现测试用例间的调用。此外,还提供了pytest.ini配置文件示例。
945 2
|
测试技术 Python
自动化测试项目学习笔记(二):学习各种setup、tearDown、断言方法
本文主要介绍了自动化测试中setup、teardown、断言方法的使用,以及unittest框架中setUp、tearDown、setUpClass和tearDownClass的区别和应用。
567 0
自动化测试项目学习笔记(二):学习各种setup、tearDown、断言方法
|
SQL 分布式计算 Java
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
416 0
|
SQL 分布式计算 关系型数据库
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
442 0
|
关系型数据库 MySQL 网络安全
5-10Can't connect to MySQL server on 'sh-cynosl-grp-fcs50xoa.sql.tencentcdb.com' (110)")
5-10Can't connect to MySQL server on 'sh-cynosl-grp-fcs50xoa.sql.tencentcdb.com' (110)")
|
SQL 存储 监控
SQL Server的并行实施如何优化?
【7月更文挑战第23天】SQL Server的并行实施如何优化?
910 13
解锁 SQL Server 2022的时间序列数据功能
【7月更文挑战第14天】要解锁SQL Server 2022的时间序列数据功能,可使用`generate_series`函数生成整数序列,例如:`SELECT value FROM generate_series(1, 10)。此外,`date_bucket`函数能按指定间隔(如周)对日期时间值分组,这些工具结合窗口函数和其他时间日期函数,能高效处理和分析时间序列数据。更多信息请参考官方文档和技术资料。
626 9