字节跳动火山引擎ByteHouse的hash join

简介: 字节跳动火山引擎ByteHouse的hash join

带有过滤条件的hash join,首先针对左表构建hash表,然后对右表进行过滤,针对hash表中每个元组都对右表过滤后的结果进行探测,满足条件的作为join结果。当左表比较大时,构建hash表就需要较大代价。字节跳动的火山引擎Bytehouse中对hash join进行了优化。当右表过滤后结果集比较小时,将右表结果集作为过滤条件过滤左表,然后再构建hash表进行探测。如下图所示:

 

那就有问题了,虽然看起来这个idea可以带来较大收益,但需要思考是构建全量左表hash表的代价大还是提前过滤不会命中的join数据代价大呢?也就是什么场景下,什么阈值最好有个标量值下这种Runtime filter才具有优势呢?

Bytehouse中介绍,右表过滤后结果集比较小,同时左表非常大,但根据join条件过滤后结果集很小,这种场景下才适合启动Runtime Filter

但是,还是上面问题,针对启用条件,bytehouse是否有变量阈值控制呢?这个就不得而知了。

目录
相关文章
|
3月前
|
SQL 存储 分布式计算
奇思妙想的SQL|去重Cube计算优化新思路
本文主要分享了作者在蚂蚁集团高管数据链路改造升级过程中,针对去重Cube的优化实践。
719 48
|
10月前
|
SQL 人工智能 算法
21MyCat - 分片join(catlet人工智能)
21MyCat - 分片join(catlet人工智能)
41 0
|
12月前
|
存储 分布式计算 流计算
离线数据Join我懂,但是实时数据怎么做Join的? by彭文华
离线数据Join我懂,但是实时数据怎么做Join的? by彭文华
GreenPlum Hash聚合简析
GreenPlum Hash聚合简析
85 0
|
OLAP Serverless
openGauss向量化引擎--hash join
openGauss向量化引擎--hash join
109 0
|
自然语言处理 搜索推荐 索引
白话Elasticsearch23-深度探秘搜索技术之通过ngram分词机制实现index-time搜索推荐
白话Elasticsearch23-深度探秘搜索技术之通过ngram分词机制实现index-time搜索推荐
104 0
|
机器学习/深度学习 编解码 自然语言处理
用语言直接检索百万视频,这是阿里TRECVID 视频检索冠军算法
利用自然语言检索百万视频,人物、场景、事件都不能放过,这就是既困难又吸引了众多研究者的视频检索任务。
1165 0
用语言直接检索百万视频,这是阿里TRECVID 视频检索冠军算法
不能错过的分布式ID生成器(Leaf ),好用的一批
Leaf是美团推出的一个分布式ID生成服务,名字取自德国哲学家、数学家莱布尼茨一句话:“There are no two identical leaves in the world.”(“世界上没有两片相同的树叶”),取个名字都这么有寓意,美团程序员牛掰啊!
|
存储 JSON 算法
升级JSONB列式存储,Hologres助力淘宝搜索2022双11降本增效
升级JSONB列式存储,Hologres助力淘宝搜索2022双11降本增效。
1218 1
升级JSONB列式存储,Hologres助力淘宝搜索2022双11降本增效
|
存储 SQL 缓存
【分布式技术专题】「分布式ID系列」百度开源的分布式高性能的唯一ID生成器UidGenerator
【分布式技术专题】「分布式ID系列」百度开源的分布式高性能的唯一ID生成器UidGenerator
652 0
【分布式技术专题】「分布式ID系列」百度开源的分布式高性能的唯一ID生成器UidGenerator