【拿走不谢】大数据高效查询神器--bitmap-阿里云开发者社区

【拿走不谢】大数据高效查询神器--bitmap

2024-01-03 136

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【拿走不谢】大数据高效查询神器--bitmap

背景

在hive中使用Roaring64Bitmap实现精确去重功能主要目的：

提升 hive 中精确去重性能，代替hive 中的 count(distinct uuid)；
节省 hive 存储，使用 bitmap 对数据压缩，减少了存储成本；
提供在 hive 中 bitmap 的灵活运算，比如：交集、并集、差集运算，计算后的 bitmap 也可以直接写入 hive；

使用

1.github地址

https://github.com/lihuigang/hive-bitmap-udf

2.下载地址:

https://github.com/lihuigang/hive-bitmap-udf/releases/download/v1.0.1/hive-bitmap-udf.jar

3.在hive中创建自定义 bitmap UDF

add jar hdfs://node:9000/hive-bitmap-udf.jar;
CREATE TEMPORARY FUNCTION to_bitmap AS 'com.hive.bitmap.udf.ToBitmapUDAF';
CREATE TEMPORARY FUNCTION bitmap_union AS 'com.hive.bitmap.udf.BitmapUnionUDAF';
CREATE TEMPORARY FUNCTION bitmap_count AS 'com.hive.bitmap.udf.BitmapCountUDF';
CREATE TEMPORARY FUNCTION bitmap_and AS 'com.hive.bitmap.udf.BitmapAndUDF';
CREATE TEMPORARY FUNCTION bitmap_or AS 'com.hive.bitmap.udf.BitmapOrUDF';
CREATE TEMPORARY FUNCTION bitmap_xor AS 'com.hive.bitmap.udf.BitmapXorUDF';

4.UDF说明

UDF	描述	案例	结果类型
to_bitmap	将num（int或bigint）转化为 bitmap	to_bitmap(num)	bitmap
bitmap_union	多个bitmap合并为一个bitmap（并集）	bitmap_union(bitmap)	bitmap
bitmap_count	计算bitmap中存储的num个数	bitmap_count(bitmap)	long
bitmap_and	计算两个bitmap交集	bitmap_and(bitmap1,bitmap2)	bitmap
bitmap_or	计算两个bitmap并集	bitmap_or(bitmap1,bitmap2)	bitmap
bitmap_xor	计算两个bitmap差集	bitmap_xor(bitmap1,bitmap2)	bitmap

5. 在 hive 中创建 bitmap 类型表,导入数据并查询

CREATE TABLE IF NOT EXISTS `hive_bitmap_table`
( 
    k      int      comment 'id',
    bitmap binary   comment 'bitmap'
) comment 'hive bitmap 类型表' 
STORED AS ORC;
-- 数据写入
insert into table  hive_bitmap_table select  1 as id,to_bitmap(1) as bitmap;
insert into table hive_bitmap_table select  2 as id,to_bitmap(2) as bitmap;
-- 查询
select bitmap_union(bitmap) from hive_bitmap_table;
select bitmap_count(bitmap_union(bitmap)) from hive_bitmap_table;

6. 在 hive 中使用 bitmap 实现精确去重

CREATE TABLE IF NOT EXISTS `hive_table`
( 
    k      int      comment 'id',
    uuid   bigint   comment '用户id'
) comment 'hive 普通类型表' 
STORED AS ORC;
-- 普通查询（计算去重人数）
select count(distinct uuid) from hive_table;
-- bitmap查询（计算去重人数）
select bitmap_count(to_bitmap(uuid)) from hive_table;

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

【拿走不谢】大数据高效查询神器--bitmap

背景

使用

1.github地址

2.下载地址:

3.在hive中创建自定义 bitmap UDF

4.UDF说明

5. 在 hive 中创建 bitmap 类型表,导入数据并查询

6. 在 hive 中使用 bitmap 实现精确去重

热门文章

最新文章

相关课程

相关电子书

相关实验场景