HiveSQL分位数函数percentile()使用详解+实例代码

简介: HiveSQL分位数函数percentile()使用详解+实例代码

前言


作为数据分析师每个SQL数据库的函数以及使用技能操作都得点满,尤其是关于统计函数的使用方法。关于统计出数据的中位数,众数和分位数的方法必须掌握几种,一般在实际业务上大部分都是以写SQL查询为主,因为如果想用Python的Pandas去做数据分析还得将数据导出来读出来,输出了结果还得再倒进去,十分的麻烦。若是能在SQL上面直接处理简单问题,那么效率要远高于导出做Pandas处理。本篇文章主要介绍percentile分位数函数使用方法,后几篇文章将主要详解每个SQL中统计函数的使用方法,感兴趣觉得帮助大的朋友可以关注。本篇博客博主将长期维护,若有错误请在评论区指出。


HiveSQL中关于分位数的计算主要是通过percentile()percentile_approx()这两个函数来实现。


一、percentile()


函数使用语法:


percentile(col, p)

参数说明:


col:指定需要计算的列名,并且列的值必须为int类型。

p:指定得到的分位数数值,取值范围为[0,1],若为0.5则为中位数,若为0.75则为四分之三分位数,依此类推。

示例使用:

SELECT percentile(num,0.2) as two_parts#取二分位数
FROM dbbasename.table

c6910c3f4d344a019353669ced5640f1.png

另外还可以已数列的方式输入p,则也回返回一个数列,包含其输入数列对应的百分位数:


1. SELECT percentile(num,array(0.2,0.4,0.6)) as parts#取二分位数
2. FROM dbbasename.table


85a844654e7540fea35cc9d1d3910db3.png

二、percentile_approx()


函数使用语法:


percentile_approx(DOUBLE col,p,B)


求近似的第p个百分位数,p必须介于0和1之间,返回类型为double,但是col字段支持浮点类型。参数B控制内存消耗的近似精度,B越大,结果的精度越高。默认值为10000。当col字段中的distinct值的个数小于B时,结果就为准确的百分位数。

SELECT percentile_approx(num,0.2,9999) as two_parts#取二分位数
FROM dbbasename.table

baaf4e7270934265bc4f42f1f06ac58d.png


当然一样也能输出数列:


1. SELECT percentile_approx(num,array(0.25,0.5,0.75)) as parts#取二分位数
2. FROM dbbasename.table


cfd5a4f9c12846f2ba33b34ff995ceb0.png

目录
相关文章
|
SQL HIVE
【Hive SQL 每日一题】环比增长率、环比增长率、复合增长率
该文介绍了环比增长率、同比增长率和复合增长率的概念及计算公式,并提供了SQL代码示例来计算商品的月度增长率。环比增长率是相邻两期数据的增长率,同比增长率是与去年同期相比的增长率,复合增长率则是连续时间段内平均增长的速率。文章还包含了一组销售数据用于演示如何运用这些增长率进行计算。
745 4
|
运维 监控 JavaScript
(ARMS-AIOps)一文教你用Attributor算法实现多维下钻分析
常见的AIOps应用路径为:对监控的各种关键性能指标(KPI)进行实时异常检测;对多维指标进行根源分析,快速下钻到异常维度和元素;基于应用拓扑和实时Trace,实现根因定位;结合CMDB、关联等、构建异常根因上下文,帮助快速修复问题。 作为KPI指标, 往往包含了很多维度和元素,最显而易见的则是对每一个维度的元素都进行实时异常检测。 对于维度组合笛卡尔集数量很长的场景, 该方案的成本则有点难以承受
5206 0
|
移动开发 开发工具 双11
什么是Deeplink?以及Deeplink的原理
Deeplink,又叫深度链接技术,是指在App/短信/广告里点击链接,用户点击后, 能直接跳转到目标App具体位置的技术,深度链接打破了网站与App间的壁垒,成为实现网站与App相互跳转的桥梁。开发者不仅可以通过Deeplink实现网站到App互相跳转,也可以实现从多个平台(QQ、微信、微博、Twitter、Facebook、短信、各大浏览器等)到App内指定页的跳转。
什么是Deeplink?以及Deeplink的原理
|
SQL XML JSON
Hive函数全解——思维导图 + 七种函数类型
Hive函数全解——思维导图 + 七种函数类型
394 2
Hive函数全解——思维导图 + 七种函数类型
|
SQL 存储 Java
Hive 特殊的数据类型 Array、Map、Struct
在Hive中,`Array`、`Map`和`Struct`是三种特殊的数据类型。`Array`用于存储相同类型的列表,如`select array(1, "1", 2, 3, 4, 5)`会产生一个整数数组。`Map`是键值对集合,键值类型需一致,如`select map(1, 2, 3, "4")`会产生一个整数到整数的映射。`Struct`表示结构体,有固定数量和类型的字段,如`select struct(1, 2, 3, 4)`创建一个无名结构体。这些类型支持嵌套使用,允许更复杂的结构数据存储。例如,可以创建一个包含用户结构体的数组来存储多用户信息
1948 0
|
分布式计算 MaxCompute SQL
SQL开发问题之如何判断mapjoin是否生效
SQL开发问题之如何判断mapjoin是否生效
267 5
|
SQL Serverless HIVE
Hive 求多个字段的中位数(按行求中位数)
在项目中遇到按行求中位数的Hive需求,本文通过创建测试数据,展示解决方案。首先使用`lateral view`和`explode`将多字段行转为列,然后通过`percentile`函数计算每行数据的中位数,最终得到结果。该方法适用于将行转为列处理复杂需求,欢迎探讨更优解。
318 4