下面我们就开始解析:
- 拆分goods_id字段及将json数组转化成多个json字符串:
select explode(split(goods_id,',')) as good_id, explode(split(regexp_replace(regexp_replace(json_str , '\\[|\\]',''),'\\}\\,\\{','\\}\\;\\{'),'\\;')) as sale_info from tableName;
执行上述语句,结果报错:
FAILED: SemanticException 3:0 Only a single expression in the SELECT clause is supported with UDTF's. Error encountered near token 'sale_info'
意思是用UDTF的时候,SELECT 只支持一个字段。而上述语句select中有两个字段,所以报错了。
那怎么办呢,要解决这个问题,还得再介绍一个hive语法:
lateral view
lateral view用于和split、explode等UDTF一起使用的,能将一行数据拆分成多行数据,在此基础上可以对拆分的数据进行聚合,lateral view首先为原始表的每行调用UDTF,UDTF会把一行拆分成一行或者多行,lateral view在把结果组合,产生一个支持别名表的虚拟表。
- 示例:
假设我们有一张用户兴趣爱好表 hobbies_table,它有两列数据,第一列是name,第二列是用户兴趣爱好的id_list,是一个数组,存储兴趣爱好的id值:
name | id_list |
zhangsan | [1,2,3] |
lisi | [3,4,5] |
我们要统计所有兴趣id在所有用户中出现的次数:
- 对兴趣id进行解析:
SELECT name, hobby_id FROM hobbies_table LATERAL VIEW explode(id_list) tmp_table AS hobby_id;
上述sql执行结果:
name | hobby_id |
zhangsan | 1 |
zhangsan | 2 |
zhangsan | 3 |
lisi | 3 |
lisi | 4 |
lisi | 5 |
将id_list拆分完之后统计在用户中出现的次数就简单了,按照hobby_id进行分组聚合即可:
SELECT hobby_id ,count(name) client_num FROM hobbies_table LATERAL VIEW explode(id_list) tmp_table AS hobby_id group by hobby_id;
结果:
hobby_id | client_num |
1 | 1 |
2 | 1 |
3 | 2 |
4 | 1 |
5 | 1 |
介绍完 lateral view
之后,我们再来解决上面遇到的用UDTF的时候,SELECT 只支持一个字段的问题:
select good_id,get_json_object(sale_json,'$.monthSales') as monthSales from tableName LATERAL VIEW explode(split(goods_id,','))goods as good_id LATERAL VIEW explode(split(regexp_replace(regexp_replace(json_str , '\\[|\\]',''),'\\}\\,\\{','\\}\\;\\{'),'\\;')) sales as sale_json;
注意:上述语句是三个表笛卡尔积的结果,所以此方式适用于数据量不是很大的情况。
上述语句执行结果如下:
goods_id | monthSales |
1 | 4900 |
1 | 2090 |
1 | 6987 |
2 | 4900 |
2 | 2090 |
2 | 6987 |
3 | 4900 |
3 | 2090 |
3 | 6987 |
如果表中还有其他字段,我们可以根据其他字段筛选出符合结果的数据。
总结:lateral view通常和UDTF一起出现,为了解决UDTF不允许在select存在多个字段的问题。