大数据Hive行列转换应用与实现

2023-09-17 196

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

简介： 大数据Hive行列转换应用与实现

1 工作应用场景

实际工作场景中经常需要实现对于Hive中的表进行行列转换操作，例如当前ADS层的数据表，我们统计得到每个小时不同维度下的UV、PV、IP的个数，而现在为了构建可视化报表，得到每个小时的UV、PV的线图，观察访问趋势，我们需要构建如下的表结构：

在Hive中，我们可以通过函数来实现各种复杂的行列转换。

2 行转列：多行转多列

2.1 需求

➢ 原始数据表

➢ 目标结果表

4.2.2 case when判断

➢ 功能

用于实现对数据的判断，根据条件，不同的情况返回不同的结果，类似于Java中的switch case 功能

➢ 语法

➢ 语法一

CASE 
WHEN 条件1 THEN VALUE1
WHEN 条件2 THEN VALUE2
……
WHEN 条件N THEN VALUEN
ELSE 默认值
END

➢ 语法二

CASE 列
WHEN V1 THEN VALUE1
WHEN V2 THEN VALUE2
……
WHEN VN THEN VALUEN
ELSE 默认值
END

➢ 测试

➢ 语法一：当id < 2显示a，当id = 2 显示b ,其他的显示c

select
  id,
  case
  when id < 2 then 'a'
  when id = 2 then 'b'
  else 'c'
  end as caseName
from tb_url;

语法二：当id =1 显示a，当id = 2 显示b ,其他的显示c

select
id,
case id
when 1 then 'a'
when 2 then 'b'
else 'c'
end as caseName
from tb_url;

2.3 实现

➢ 创建原始数据表，加载数据

--切换数据库
use db_function;
--建表
create table row2col1(
   col1 string,
   col2 string,
   col3 int
) row format delimited fields terminated by '\t';
--加载数据到表中
load data local inpath '/export/data/r2c1.txt' into table row2col1;

➢ SQL实现转换

select
  col1 as col1,
  max(case col2 when 'c' then col3 else 0 end) as c,
  max(case col2 when 'd' then col3 else 0 end) as d,
  max(case col2 when 'e' then col3 else 0 end) as e
from
  row2col1
group by
  col1;

3 行转列：多行转单列

3.1 需求

➢ 原始数据表

➢ 目标数据表

3.2 concat

➢ 功能：用于实现字符串拼接，不可指定分隔符

➢ 语法

concat(element1,element2,element3……)

➢ 测试

select concat(“it”,“cast”,“And”,“heima”);

±----------------+

| itcastAndheima |

±----------------+

➢ 特点：如果任意一个元素为null，结果就为null

select concat(“it”,“cast”,“And”,null);

±------+

| NULL |

±------+

3.3 concat_ws

➢ 功能：用于实现字符串拼接，可以指定分隔符

➢ 语法

concat_ws(SplitChar，element1，element2……)

➢ 测试

select concat_ws("-",“itcast”,“And”,“heima”);

±------------------+

| itcast-And-heima |

±------------------+

➢ 特点：任意一个元素不为null，结果就不为null

select concat_ws("-",“itcast”,“And”,null);

±------------+

| itcast-And |

±------------+

3.4 collect_list

➢ 功能：用于将一列中的多行合并为一行，不进行去重

➢ 语法

collect_list（colName）

➢ 测试

select collect_list(col1) from row2col1;

±---------------------------+

| [“a”,“a”,“a”,“b”,“b”,“b”] |

±---------------------------+

3.5 concat_set

➢ 功能：用于将一列中的多行合并为一行，并进行去重

➢ 语法

collect_set（colName）

➢ 测试

select collect_set(col1) from row2col1;

±-----------+

| [“b”,“a”] |

±-----------+

3.6 实现

➢ 创建原始数据表，加载数据

--切换数据库
use db_function;
--建表
create table row2col2(
   col1 string,
   col2 string,
   col3 int
)row format delimited fields terminated by '\t';
--加载数据到表中
load data local inpath '/export/data/r2c2.txt' into table row2col2;

➢ SQL实现转换

select
  col1,
  col2,
  concat_ws(',', collect_list(cast(col3 as string))) as col3
from
  row2col2
group by
  col1, col2;

4 列转行：多列转多行

4.1 需求

⚫ 原始数据表

⚫ 目标结果表

4.2 union

➢ 功能：将多个select语句结果合并为一个，且结果去重且排序

➢ 语法

select_statement

UNION [DISTINCT]

select_statement

UNION [DISTINCT]

select_statement …

➢ 测试

select 'b','a','c' 
union 
select 'a','b','c' 
union  
select 'a','b','c';

4.3 union all

➢ 功能：将多个select语句结果合并为一个，且结果不去重不排序

➢ 语法

select_statement UNION ALL select_statement UNION ALL select_statement …

➢ 测试

select ‘b’,‘a’,‘c’

union all

select ‘a’,‘b’,‘c’

union allselect ‘a’,‘b’,‘c’;

4.4 实现

➢ 创建原始数据表，加载数据

–切换数据库

use db_function;

–创建表

create table col2row1

(

col1 string,

col2 int,

col3 int,

col4 int

) row format delimited fields terminated by ‘\t’;

–加载数据

load data local inpath ‘/export/data/c2r1.txt’ into table col2row1;

➢ SQL实现转换

select col1, ‘c’ as col2, col2 as col3 from col2row1

UNION ALL

select col1, ‘d’ as col2, col3 as col3 from col2row1

UNION ALLselect col1, ‘e’ as col2, col4 as col3 from col2row1;

5 列转行：单列转多行

5.1 需求

➢ 原始数据表

➢ 目标结果表

5.2 explode

➢ 功能：用于将一个集合或者数组中的每个元素展开，将每个元素变成一行

➢ 语法

explode( Map | Array)

➢ 测试

select explode(split(“a,b,c,d”,","));

5.3 实现

➢ 创建原始数据表，加载数据

--切换数据库
use db_function;
--创建表
create table col2row2(
   col1 string,
   col2 string,
   col3 string
)row format delimited fields terminated by '\t';
--加载数据
load data local inpath '/export/data/c2r2.txt' into table col2row2;

➢ SQL实现转换

select
  col1,
  col2,
  lv.col3 as col3
from
  col2row2
    lateral view
  explode(split(col3, ',')) lv as col3;

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

大数据Hive行列转换应用与实现

1 工作应用场景

2 行转列：多行转多列

2.1 需求

2.3 实现

3 行转列：多行转单列

3.1 需求

3.2 concat

3.3 concat_ws

3.4 collect_list

3.5 concat_set

3.6 实现

4 列转行：多列转多行

4.1 需求

4.2 union

4.3 union all

4.4 实现

5 列转行：单列转多行

5.1 需求

5.2 explode

5.3 实现

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

大数据Hive行列转换应用与实现

1 工作应用场景

2 行转列：多行转多列

2.1 需求

2.3 实现

3 行转列：多行转单列

3.1 需求

3.2 concat

3.3 concat_ws

3.4 collect_list

3.5 concat_set

3.6 实现

4 列转行：多列转多行

4.1 需求

4.2 union

4.3 union all

4.4 实现

5 列转行：单列转多行

5.1 需求

5.2 explode

5.3 实现

热门文章

最新文章

相关课程

相关电子书

相关实验场景