hive 数据源,yarn 集群测试, SQL 分别取 topN5

简介: 快速学习hive数据源,yarn集群测试,SQL分别取topN5

开发者学堂课程【大数据实时计算框架Spark快速入门hive  数据源, yarn 集群测试,SQL 分别取  topN5 】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/100/detail/1718


hive数据源,yarn  集群测试,SQL分别取topN5


内容简介:

一、具体内容

二、按照排序

三、开窗函数  rownumber


一、具体内容

按照  category  这个内别来进行分组分组之后在  order by  按照年收入进行排序,进行倒叙的按照排完的数据再进行分窗打一个行号,既  row number  行号,出来的行号是新的一列称之为  rank  ,这样在外面去取数据的时候就直接可以把打完行号的数据起个别名,叫  tmp sale  s,取出来  product  产品这个字段,取出来品类category  这个字段取出来  revenue  年收入这个字段取出来  rank  这个字段,起个别名  tmp sales  然后最后真正要的并不是要  rank  排名只是根据它来弄一个条件,这个  where rank  小于3这样就把每一个分组里面排名前三的找出来了因为行号是从1开始,所以是要从小于3开始,所以<等于3取前三个,这样就做到了分组去  top3,应用完  sql  语句后,结果会生成  datefree  ,把结果存到 hive  里面去。这个东西要测,就是打入一个炸包放到集群里面去执行,第一列可以认为是产品的型号,第二列是产品的类别,比如  cell phone和tablelet  按照分组,就是像手机或者平板。


二、按照排序

按照第三列  revenue load date  的时候第一列就是产品,以此类推,分成手机和平板两个类别,两个类别里面再倒叙,然后再返回行号,就是一个  rank  ,最后再根据行号再来过滤, cell phone  里面  6000  和  5000 排在前,跑完程序看是否是那个结果。


三、开窗函数  rownumber

这个函数只对  hive  这个功能有效,如果是读一个  sql  的数据,那就不行,通常是用一个炸包去测试,开始读  hive  的时候本质上这个数据在  IDFI  上面,那在一开始的时候,刚开始读的时候那个  ID  取决于有多少  log,如果在  sparksql  里面有那个操作,那就会变成默认的200,也可以直接改了在  confset  一下就可以直接改,可以设置  200  的大小。

相关文章
|
25天前
|
Kubernetes Linux API
CentOS 7.6使用kubeadm部署k8s 1.17.2测试集群实战篇
该博客文章详细介绍了在CentOS 7.6操作系统上使用kubeadm工具部署kubernetes 1.17.2版本的测试集群的过程,包括主机环境准备、安装Docker、配置kubelet、初始化集群、添加节点、部署网络插件以及配置k8s node节点管理api server服务器。
57 0
CentOS 7.6使用kubeadm部署k8s 1.17.2测试集群实战篇
|
2月前
|
SQL DataWorks 数据可视化
DataWorks操作报错合集之测试OSS数据源的连通性时,出现503 Service Temporarily Unavailable的错误,是什么导致的
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
1月前
|
分布式计算 大数据 Hadoop
最快方式搭建docker大数据 测试集群
【8月更文挑战第5天】快速搭建Docker大数据测试集群可采用预构建镜像与Compose文件、利用云服务如AWS的ECS、自动化工具如Ansible或参考在线教程。只需简单配置如内存分配及路径,运行`docker-compose up`即可启动含NameNode、DataNode等组件的Hadoop集群。根据需求与资源选择合适方法。
|
3月前
|
SQL DataWorks 数据处理
DataWorks操作报错合集之在创建ES的数据源时,测试连通性提示无法连通,出现报错,如何解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
3月前
|
分布式计算 Shell Linux
Spark-集群安装、部署、启动、测试(1.6.3)稳定版
Spark-集群安装、部署、启动、测试(1.6.3)稳定版
52 0
|
16天前
|
移动开发 JSON Java
Jmeter实现WebSocket协议的接口测试方法
WebSocket协议是HTML5的一种新协议,实现了浏览器与服务器之间的全双工通信。通过简单的握手动作,双方可直接传输数据。其优势包括极小的头部开销和服务器推送功能。使用JMeter进行WebSocket接口和性能测试时,需安装特定插件并配置相关参数,如服务器地址、端口号等,还可通过CSV文件实现参数化,以满足不同测试需求。
78 7
Jmeter实现WebSocket协议的接口测试方法
|
16天前
|
JSON 移动开发 监控
快速上手|HTTP 接口功能自动化测试
HTTP接口功能测试对于确保Web应用和H5应用的数据正确性至关重要。这类测试主要针对后台HTTP接口,通过构造不同参数输入值并获取JSON格式的输出结果来进行验证。HTTP协议基于TCP连接,包括请求与响应模式。请求由请求行、消息报头和请求正文组成,响应则包含状态行、消息报头及响应正文。常用的请求方法有GET、POST等,而响应状态码如2xx代表成功。测试过程使用Python语言和pycurl模块调用接口,并通过断言机制比对实际与预期结果,确保功能正确性。
79 3
快速上手|HTTP 接口功能自动化测试
|
16天前
|
JavaScript 前端开发 测试技术
ChatGPT与接口测试
ChatGPT与接口测试,测试通过
28 5
|
1月前
|
网络协议 测试技术 网络安全
Python进行Socket接口测试的实现
在现代软件开发中,网络通信是不可或缺的一部分。无论是传输数据、获取信息还是实现实时通讯,都离不开可靠的网络连接和有效的数据交换机制。而在网络编程的基础中,Socket(套接字)技术扮演了重要角色。 Socket 允许计算机上的程序通过网络进行通信,它是网络通信的基础。Python 提供了强大且易于使用的 socket 模块,使开发者能够轻松地创建客户端和服务器应用,实现数据传输和交互。 本文将深入探讨如何利用 Python 编程语言来进行 Socket 接口测试。我们将从基础概念开始介绍,逐步引导大家掌握创建、测试和优化 socket 接口的关键技能。希望本文可以给大家的工作带来一些帮助~
|
1月前
|
网络协议 测试技术 网络安全
Python进行Socket接口测试的实现
在现代软件开发中,网络通信是不可或缺的一部分。无论是传输数据、获取信息还是实现实时通讯,都离不开可靠的网络连接和有效的数据交换机制。而在网络编程的基础中,Socket(套接字)技术扮演了重要角色。 Socket 允许计算机上的程序通过网络进行通信,它是网络通信的基础。Python 提供了强大且易于使用的 socket 模块,使开发者能够轻松地创建客户端和服务器应用,实现数据传输和交互。 本文将深入探讨如何利用 Python 编程语言来进行 Socket 接口测试。我们将从基础概念开始介绍,逐步引导大家掌握创建、测试和优化 socket 接口的关键技能。希望本文可以给大家的工作带来一些帮助~