Hive 特殊的数据类型 Array、Map、Struct

简介: 在Hive中,`Array`、`Map`和`Struct`是三种特殊的数据类型。`Array`用于存储相同类型的列表,如`select array(1, "1", 2, 3, 4, 5)`会产生一个整数数组。`Map`是键值对集合,键值类型需一致,如`select map(1, 2, 3, "4")`会产生一个整数到整数的映射。`Struct`表示结构体,有固定数量和类型的字段,如`select struct(1, 2, 3, 4)`创建一个无名结构体。这些类型支持嵌套使用,允许更复杂的结构数据存储。例如,可以创建一个包含用户结构体的数组来存储多用户信息

Array

数组类型,存储数据类型一致的列表数据。

我们可以使用 array 方法来创建一个数组,如下所示:

select array(1,2,3,4,5);

image.png

如果其中的数据类型不一致,那么它会转换成统一的数据类型(前提是能够进行转换):

-- 同时存在整型和字符型 会统一转换为整型
select array(1,"1",2,3,4,5);

image.png

Array 数据类型的使用

创建测试表:

create table if not exists array_test(
users array<string>
)
row format delimited fields terminated by '\t';

插入一些测试数据:

insert into table array_test values(array("Jack","Mary","Lily"));

查询表数据:

select * from array_test;

image.png

获取数组中的数据

select
  users,
  users[0] first_col,
  users[10] null_col
from
  array_test;

image.png

获取数组值的方式和我们在 Java 中一样,采用下标的方式访问,当访问的下标超过数组的长度时,并不会报错,它会返回 null 值。

如果想要判断数组中是否存在某个值,可以使用 array_contains 方法:

select
  users,
  array_contains(users,"Jack") is_save_Jack,
  array_contains(users,"Tom") is_save_Tom
from
  array_test;

image.png

Map

Map 是 KV 键值对类型,其中存储的字段数量可多可少,但是 KV 键值对的数据类型必须提前确定。

同样,在 Hive 中也提供了创建 Map 键值对的方法 map,如下所示:

select map(1,2,3,4);

image.png

它会将前面的数据当作 Key,后面的数据当作 Value,两两组合,形成 Map 集合。

如果其中的数据类型不一致,它同样会转换成统一的数据类型:

-- 同时存在整型和字符型 会统一转换为整型
select map(1,2,3,"4");

image.png

这里值 Value 中存在整型和字符型数据类型不统一的情况,它会统一将值 Value 都转换成字符型。

如果无法形成两两组合的键值对,则会直接报错:

select map(1,2,3,4,5);

image.png

Map 数据类型的使用

创建测试表:

create table if not exists map_test(
users map<string,string>
)
row format delimited fields terminated by '\t';

往刚刚创建的表中插入一些测试数据:

insert into table map_test values (map("name","Mary","age","20")),(map("name","Jack","age","21"));

查询表数据:

select * from map_test;

image.png

获取 Map 中的数据

select
  users,
  users["name"],
  users["age"]
from
  map_test;

image.png

如果获取一个不存在的键时,它会返回 null 值:

select
  users,
  users["ggg"]
from
  map_test;

image.png

在查询时,需要注意,Map 会区分键的大小写:

select
  users,
  users["Name"],
  users["AGE"]
from
  map_test;

image.png

如果想要获取所有的键或者值,可以使用 map_keys() 或者 map_values()

select
  users,
  map_keys(users),
  map_values(users)
from
  map_test;

image.png

Struct

Struct 是结构体数据类型,其中存储对象的相关信息,例如:用户ID、用户名、账号、密码等

Struct 中的数据数量以及类型都必须是确定的。

在 Hive 中提供了创建 Struct 键值对的方法 struct,如下所示:

select struct(1,2,3,4);

image.png

它会将所有的参数都当作为值,由系统自动生成键名。

如果想要用户来设置键名,那么可以使用另一个方法 named_struct

select named_struct(1,2,3,4);

和 Map 一样,它会将前面的数据当作 Key,后面的数据当作 Value,两两组合,形成结构体。

如果其中的数据类型不一致,它同样会转换成统一的数据类型:

-- 同时存在整型和字符型 会统一转换为整型
select named_struct(1,2,3,"4");

image.png

这里值 Value 中存在整型和字符型数据类型不统一的情况,它会统一将值 Value 都转换成字符型。

Struct 数据类型的使用

创建测试表:

create table if not exists struct_test(
users struct<id:int,name:string,age:int>
)
row format delimited fields terminated by '\t';

往刚刚创建的表中插入一些测试数据:

insert into table struct_test values (named_struct("id",1001,"name","Mary","age",20)),(named_struct("id",1002,"name","Jack","age",21)),(named_struct("id",1003,"name","Tom","age",20));

如果数据的类型与定义的类型产生冲突,它会直接报错。

查询表数据:

select * from struct_test;

image.png

获取 Struct 中的数据

select
  users,
  users.id,
  users.name,
  users.age
from
  struct_test;

image.png

如果获取一个不存在的键时,它会直接报错:

select
  users,
  users.ggg
from
  struct_test;

image.png

在查询时,需要注意,它和 Map 不同,忽略大小写:

select
  users,
  users.ID,
  users.NaME,
  users.Age
from
  struct_test;

image.png

嵌套使用

在 Hive 中,我们可以嵌套使用特殊的数据类型。

创建测试表:

create table if not exists test(
users array<struct<id:int,name:string>>
)
row format delimited fields terminated by '\t';

插入一些测试数据:

insert into table test values(array(named_struct("id",1001,"name","Jack")));

查询表数据:

select * from test;

image.png

获取嵌套格式中的数据

其实和前面一样,每层使用各自的访问方式就行了。

select
  users,
  users[0].id,
  users[0].name
from
  test;

image.png

其余格式之间的嵌套这里就不再说明了,同学们可以自己尝试。

相关文章
|
12月前
|
JavaScript 前端开发 API
JavaScript中通过array.map()实现数据转换、创建派生数组、异步数据流处理、复杂API请求、DOM操作、搜索和过滤等,array.map()的使用详解(附实际应用代码)
array.map()可以用来数据转换、创建派生数组、应用函数、链式调用、异步数据流处理、复杂API请求梳理、提供DOM操作、用来搜索和过滤等,比for好用太多了,主要是写法简单,并且非常直观,并且能提升代码的可读性,也就提升了Long Term代码的可维护性。 只有锻炼思维才能可持续地解决问题,只有思维才是真正值得学习和分享的核心要素。如果这篇博客能给您带来一点帮助,麻烦您点个赞支持一下,还可以收藏起来以备不时之需,有疑问和错误欢迎在评论区指出~
|
JavaScript 前端开发
JavaScript Array map() 方法
JavaScript Array map() 方法
|
存储 SQL 分布式计算
Hive 中有多少种数据类型?
【8月更文挑战第12天】
2134 4
|
存储 分布式计算 DataWorks
MaxCompute产品使用合集之要存储用户的下单所有产品,然后查询时要进行产品分组的,一般这种字段要使用ARRAY还是MAP
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
8月前
|
测试技术 PHP 开发者
PHP 数组查找:为什么 `isset()` 比 `in_array()` 快得多?
PHP 数组查找:为什么 `isset()` 比 `in_array()` 快得多?
|
12月前
|
人工智能 Java
Java 中数组Array和列表List的转换
本文介绍了数组与列表之间的相互转换方法,主要包括三部分:1)使用`Collections.addAll()`方法将数组转为列表,适用于引用类型,效率较高;2)通过`new ArrayList&lt;&gt;()`构造器结合`Arrays.asList()`实现类似功能;3)利用JDK8的`Stream`流式计算,支持基本数据类型数组的转换。此外,还详细讲解了列表转数组的方法,如借助`Stream`实现不同类型数组间的转换,并附带代码示例与执行结果,帮助读者深入理解两种数据结构的互转技巧。
847 1
Java 中数组Array和列表List的转换
|
存储 Go 索引
go语言中的数组(Array)
go语言中的数组(Array)
316 67
|
12月前
|
移动开发 运维 供应链
通过array.some()实现权限检查、表单验证、库存管理、内容审查和数据处理;js数组元素检查的方法,some()的使用详解,array.some与array.every的区别(附实际应用代码)
array.some()可以用来权限检查、表单验证、库存管理、内容审查和数据处理等数据校验工作,核心在于利用其短路机制,速度更快,节约性能。 博客不应该只有代码和解决方案,重点应该在于给出解决方案的同时分享思维模式,只有思维才能可持续地解决问题,只有思维才是真正值得学习和分享的核心要素。如果这篇博客能给您带来一点帮助,麻烦您点个赞支持一下,还可以收藏起来以备不时之需,有疑问和错误欢迎在评论区指出~
|
12月前
|
供应链 JavaScript 前端开发
通过array.every()实现数据验证、权限检查和一致性检查;js数组元素检查的方法,every()的使用详解,array.some与array.every的区别(附实际应用代码)
array.every()可以用来数据验证、权限检查、一致性检查等数据校验工作,核心在于利用其短路机制,速度更快,节约性能。 博客不应该只有代码和解决方案,重点应该在于给出解决方案的同时分享思维模式,只有思维才能可持续地解决问题,只有思维才是真正值得学习和分享的核心要素。如果这篇博客能给您带来一点帮助,麻烦您点个赞支持一下,还可以收藏起来以备不时之需,有疑问和错误欢迎在评论区指出~
|
12月前
|
Web App开发 存储 前端开发
别再用双层遍历循环来做新旧数组对比,寻找新增元素了!使用array.includes和Set来提升代码可读性
这类问题的重点在于能不能突破基础思路,突破基础思路是从程序员入门变成中级甚至高级的第一步,如果所有需求都通过最基础的业务逻辑来做,是得不到成长的。 博客不应该只有代码和解决方案,重点应该在于给出解决方案的同时分享思维模式,只有思维才能可持续地解决问题,只有思维才是真正值得学习和分享的核心要素。如果这篇博客能给您带来一点帮助,麻烦您点个赞支持一下,还可以收藏起来以备不时之需,有疑问和错误欢迎在评论区指出~