一文速学-HiveSQL解析JSON数据详解+代码实战

本文涉及的产品
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
简介: 一文速学-HiveSQL解析JSON数据详解+代码实战

前言


JSON文件存储格式十分常见,在各个数据库中以及业务场景都有关于该文件的处理方式。但是有时候处理JSON文件在不同的数据库处理方法也不同,掌握一些高效的函数可以大大简化我们处理JSON数据格式的效率。面对一些复杂的存储形式,例如JSON数组存储这种就必须采取一定的处理方式,下面是处理HiveSQL解析JSON数据的函数与方法。


一、JSON数据


君欲擅其器,必先练其力。我们要对JSON文件有个熟悉的认知。


JSON是一个标记符的序列。这套标记符包含六个构造字符、字符串、数字和三个字面名。


JSON是一个序列化的对象或数组。


   数据为  键 / 值 (name/value)对;

   数据由逗号(,)分隔;

   大括号保存对象(object);

   方括号保存数组(Array);

值可以是对象、数组、数字、字符串或者三个字面值(false、null、true)中的一个。值中的字面值中的英文必须使用小写。


如:


"code":"100"


对象由花括号括起来的逗号分割的成员构成,成员是字符串键和上文所述的值由逗号分割的键值对组成:


{“code”:20,"type":"mysql"}


数组是由方括号括起来的一组值构成:


"datesource":[
    {"code":"20", "type":"mysql"},
   {"code":"20", "type":"mysql"},
    {"code":"20", "type":"mysql"}
]


二、Hive解析函数


以我们经常存储的JSON文件为实例去展示操作:

{"level":"2","time":1650973942596,"type":"0"}

HiveSQL自带两个函数可以处理JSON文件,但是一次只能处理一个JSON文件。


1.get_json_object


get_json_object的基础语法格式为:


get_json_object(json_string, '$.key')


功能:解析json的字符串json_string,返回key指定的内容。如果输入的json字符串无效,那么返回NULL。这个函数每次只能返回一个数据项。

SELECT 
GET_JSON_OBJECT('{"level":"2","time":1650973942596,"type":"0"}','$.level' ) as level ;

1b3bca4cf3f04a419a9137cc87df82be.png


如果要解析JSON的所有字段可以多写几条:

SELECT 
GET_JSON_OBJECT('{"level":"2","time":1650973942596,"type":"0"}','$.level' ) as level,
GET_JSON_OBJECT('{"level":"2","time":1650973942596,"type":"0"}','$.time' ) as times,
GET_JSON_OBJECT('{"level":"2","time":1650973942596,"type":"0"}','$.type' ) as types;

ccfc775ad92b476ab0c222b6722e5235.png


2.json_tuple


为了解决get_json_object一次解析不了整个JSON文件的问题,我们就有了json_tuple这个函数,一条便能处理一条JSON数据,基础语法为:


json_tuple(json_string, k1, k2 ...)


解析json的字符串json_string,可指定多个json数据中的key,返回对应的value。如果输入的json字符串无效,那么返回NULL。

SELECT 
json_tuple('{"level":"2","time":1650973942596,"type":"0"}','level','time','type') as (level,times,types);

9de4f9f7874f4548b23cbc9f69a1c8c0.png


但是以上这两个函数都无法处理JSON数组,需要我们使用正则替换和explode函数清洗出每条独立的JSON数据才能处理。


3.explode


explode的基础语法为:


explode(Array OR Map)


功能:explode()函数接收一个array或者map类型的数据作为输入,然后将array或map里面的元素按照每行的形式输出,即将hive一列中复杂的array或者map结构拆分成多行显示,也被称为列转行函数。

SELECT explode(array(
'
{"level":"2","time":1650973942596,"type":"0"}',
'{"level":"1","time":1650973942597,"type":"1"}',
'{"level":"3","time":1650973942598,"type":"2"}
'
))

4ed36e14418540dd9d662e075257be7c.png

select explode(map('level',1,'time',1650973942596,'type',0))

d137021b68664fa99615680d9200c8ad.png


4.regexp_replace


regexp_replace就好比python里面的sub()匹配之后替换:

基础语法:


regexp_replace(string A, string B, string C)


功能:将字符串A中的符合java正则表达式B的部分替换为C。

select REGEXP_REPLACE('{"level":"2","time":1650973942596,"type":"0"}','2','1');

dff5003d8c45442cafb222cae8435f24.png


三、Hive解析JSON数组


我们先拿到一组JSON数组:


[{"level":"2","time":1650973942596,"type":"0"},


{"level":"1","time":1650973942597,"type":"1"},


{"level":"3","time":1650973942598,"type":"2"}]


我们想要把他们转换为一下格式,变成一下这种形式:


478b5481e52141988a00bea2eacd062a.png


第一步:

第一步我们要将数组外面的,给替换掉,以免后续我们按;划分展开。

SELECT 
    REGEXP_REPLACE('[{"level":"2","time":1650973942596,"type":"0"},{"level":"1","time":1650973942597,"type":"1"},{"level":"3","time":1650973942598,"type":"2"}]','\\}\\,\\{','\\}\\;\\{')


f50e0505651947cfa83014c7205b06be.png


第二步:


将数组两边的[]给去掉:


select
REGEXP_REPLACE( 
    REGEXP_REPLACE('[{"level":"2","time":1650973942596,"type":"0"},{"level":"1","time":1650973942597,"type":"1"},{"level":"3","time":1650973942598,"type":"2"}]','\\}\\,\\{','\\}\\;\\{')
    ,'\\[|\\]','')

第三步:


按分号我们进行划分:


SELECT 
    split(
    REGEXP_REPLACE( 
    REGEXP_REPLACE('[{"level":"2","time":1650973942596,"type":"0"},{"level":"1","time":1650973942597,"type":"1"},{"level":"3","time":1650973942598,"type":"2"}]','\\}\\,\\{','\\}\\;\\{')
    ,'\\[|\\]','')
    ,'\\;')


92f2736bec474771aff02eab61ddc553.png

第四步:


之后我们便可以使用explode进行平铺了:

select 
    explode(
    split(
    REGEXP_REPLACE( 
    REGEXP_REPLACE('[{"level":"2","time":1650973942596,"type":"0"},{"level":"1","time":1650973942597,"type":"1"},{"level":"3","time":1650973942598,"type":"2"}]','\\}\\,\\{','\\}\\;\\{')
    ,'\\[|\\]','')
    ,'\\;')
    )


06721ec3998b4e12abf6892bd6e49eea.png


第五步:


最后在此表的基础之上我们再使用get_json_object或者json_tuple函数就好了:


SELECT 
      GET_JSON_OBJECT(track,'$.level') as level,
      GET_JSON_OBJECT(track,'$.time') as times,
      GET_JSON_OBJECT(track,'$.type') as types
    from (
    select 
    explode(
    split(
    REGEXP_REPLACE( 
    REGEXP_REPLACE('[{"level":"2","time":1650973942596,"type":"0"},{"level":"1","time":1650973942597,"type":"1"},{"level":"3","time":1650973942598,"type":"2"}]','\\}\\,\\{','\\}\\;\\{')
    ,'\\[|\\]','')
    ,'\\;')
    )track )track

c7d327a23d1b4741ac16f4c53ad399bf.png

目录
相关文章
|
12天前
|
数据采集 消息中间件 监控
Flume数据采集系统设计与配置实战:面试经验与必备知识点解析
【4月更文挑战第9天】本文深入探讨Apache Flume的数据采集系统设计,涵盖Flume Agent、Source、Channel、Sink的核心概念及其配置实战。通过实例展示了文件日志收集、网络数据接收、命令行实时数据捕获等场景。此外,还讨论了Flume与同类工具的对比、实际项目挑战及解决方案,以及未来发展趋势。提供配置示例帮助理解Flume在数据集成、日志收集中的应用,为面试准备提供扎实的理论与实践支持。
25 1
|
14天前
|
Java
Java中ReentrantLock释放锁代码解析
Java中ReentrantLock释放锁代码解析
25 8
|
16天前
|
JSON JavaScript 前端开发
JavaScript原生代码处理JSON的一些高频次方法合集
JavaScript原生代码处理JSON的一些高频次方法合集
|
22天前
|
监控 前端开发 JavaScript
实战篇:商品API接口在跨平台销售中的有效运用与案例解析
随着电子商务的蓬勃发展,企业为了扩大市场覆盖面,经常需要在多个在线平台上展示和销售产品。然而,手工管理多个平台的库存、价格、商品描述等信息既耗时又容易出错。商品API接口在这一背景下显得尤为重要,它能够帮助企业在不同的销售平台之间实现商品信息的高效同步和管理。本文将通过具体的淘宝API接口使用案例,展示如何在跨平台销售中有效利用商品API接口,以及如何通过代码实现数据的统一管理。
|
30天前
|
JSON JavaScript 前端开发
C++ 智能指针与 JSON 处理:高级编程技巧与常见问题解析
C++ 智能指针与 JSON 处理:高级编程技巧与常见问题解析
264 0
|
26天前
|
安全 Java 数据安全/隐私保护
【深入浅出Spring原理及实战】「EL表达式开发系列」深入解析SpringEL表达式理论详解与实际应用
【深入浅出Spring原理及实战】「EL表达式开发系列」深入解析SpringEL表达式理论详解与实际应用
57 1
|
11天前
|
SQL API 数据库
Python中的SQLAlchemy框架:深度解析与实战应用
【4月更文挑战第13天】在Python的众多ORM(对象关系映射)框架中,SQLAlchemy以其功能强大、灵活性和易扩展性脱颖而出,成为许多开发者首选的数据库操作工具。本文将深入探讨SQLAlchemy的核心概念、功能特点以及实战应用,帮助读者更好地理解和使用这一框架。
|
12天前
|
Java 数据库 Spring
切面编程的艺术:Spring动态代理解析与实战
切面编程的艺术:Spring动态代理解析与实战
25 0
切面编程的艺术:Spring动态代理解析与实战
|
12天前
|
存储 JSON JavaScript
「Python系列」Python JSON数据解析
在Python中解析JSON数据通常使用`json`模块。`json`模块提供了将JSON格式的数据转换为Python对象(如列表、字典等)以及将Python对象转换为JSON格式的数据的方法。
28 0
|
15天前
|
JavaScript API UED
Vue3.0新特性解析与实战:Composition API、Teleport与Suspense
【4月更文挑战第6天】Vue3.0引入了颠覆性的Composition API,通过函数式方法提升代码可读性和复用性,例如`setup()`、`ref`等,便于逻辑模块化。实战中,自定义的`useUser`函数可在多个组件中共享用户信息逻辑。另外,Teleport允许组件渲染到DOM特定位置,解决模态框等场景的上下文问题。再者,Suspense提供异步组件加载的延迟渲染,使用fallback内容改善用户体验。这些新特性显著优化了开发和性能,适应现代Web需求。
19 0

推荐镜像

更多