布隆过滤器原理

简介: 布隆过滤器原理

布隆过滤器



布隆过滤器拥有极高的性能,无论是写入操作还是读取操作,时间复杂度是O(1)。

在空间上相对于其他数据结构,有很大优势, 20亿的数据需要 2000000000bit/8/1024/1024 = 238 M ,如果使用数组来存储,假设每个用户 ID 占用 4个字节的空间,存储20亿用户需要 2000000000byte/4/8/1024/1024 = 7600M 的空间,是布隆过滤器的32倍。


布隆过滤器(Bloom Filter)


640.png


hash  函数



640.png


布隆过滤器的缺点


  1. 在判断元素是否在集合中有一定的错误几率,会误判,把不是在集合中的元素判断为处在集合中。
  2. 不支持删除元素


布隆过滤器误判是怎么回事?


hash 算法也叫做 摘要算法,作用是对任意一组数据输入,得到一个固定长度的输出摘要。

误判的原因,主要是Hash算法的问题。布隆过滤器是由于一个二进制和一个 Hash 算法组成的,Hash 算法存在着一定的碰撞几率。Hash 碰撞的含义是不同的输入值经过 hash 得到相同的 hash 结果。


hash 算法的输入值是无限的,输出值空间是固定的,比如 16位 hash 值的之空间是 65535 这样碰撞几率就是 1/65535 ,即输入值的个数超过 65535 就一定会发生碰撞。

但是,如果使用更长的 hash 值会带来更高的存储成本和计算成本,32 位的 hash 算法,值空间长度是 2^32-1 大概 42亿,如果有 20亿用户数据,碰撞的概率高达 50%。hash 碰撞造成两个用户,A 和 B 会计算出相同的两个 hash 值,如果A 是注册用户,B不是注册用户, 但是 A 和 B 在的的数组中是相同的,然后产生误判。

布隆过滤器的误判有一个特点,只会出现 false positive 的情况,当布隆过滤器判断元素在集合中,这个元素可能不在集合中,但是布隆过滤器判断这个元素不在集合时,它一定不在集合中,这一点非常适合解决缓存穿透的问题。

布隆过滤器有一个可预测的误判率(FPP):


640.png



  • n 是已经添加元素的数量;
  • k 哈希的次数;
  • m 布隆过滤器的长度(如比特数组的大小);


怎么减少这个误判几率


布隆过滤器存在误判,但是依然可以减少缓存穿透的发,但是为了尽量减少误判,可以使用如下解决方案:

使用多个 hash 算法为元素计算出多个 Hash 值,只有所有的hash 值对应的数组都为1个小时,才会认定这个元素在集合中。


布隆过滤器不支持删除元素的缺点也合 Hash 碰撞有关


有这样的场景,A 和 B 都是集合中的元素,他没有相同的 hash 值,会映射到数组同一个位置,但是如果此时上次了A,数组中对应位置从1 编程0 ,但是判断 B 时,会发现值是0 ,认为 B 不存在集合中。这样产生误判。

解决这个问题,一般有这样的解决方案:

数组上不再是1 和 0 两个值,而是存储一个计数,如果 A  和 B 命中同一个位置 值就是 2 ,如果 A 删除就把这个值改成1,但是这样数组就不存在 1bit ,而是存储数值,会增加空间的消耗。


布隆过滤器使用


  1. 选择多个 Hash 函数计算多个 hash 值,可以减少误判
  2. 布隆过滤器会消耗一定的内存空间,所以在使用时需要评估业务场景需要多大的内存消耗。

如果出现了一个极热数据,一旦失效,会有大量数据穿透到数据库。给数据库造成极大压力。


如何解决热点数据失效问题


极热数据缓存失效,也叫"狗壮效应"

  1. 热点数据失效后启动一个线程,将数据加载到缓存中,在缓存数据加载前,所有访问的请求都不穿透数据库直接返回。
  2. 通过 Redis 设置分布式锁,只有获得锁,才能够穿透到数据库。


布隆过滤器使用


pom.xml 依赖


<dependency>
   <groupId>com.google.guava</groupId>
   <artifactId>guava</artifactId>
   <version>28.0-jre</version>
</dependency>

Java 代码


import com.google.common.base.Charsets;
import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnels;
public class BloomFilterDemo {
    public static void main(String[] args) {
        int total = 1000000; // 总数量
        BloomFilter<CharSequence> bf = 
          BloomFilter.create(Funnels.stringFunnel(Charsets.UTF_8), total);
        // 初始化 1000000 条数据到过滤器中
        for (int i = 0; i < total; i++) {
            bf.put("" + i);
        }
        // 判断值是否存在过滤器中
        int count = 0;
        for (int i = 0; i < total + 10000; i++) {
            if (bf.mightContain("" + i)) {
                count++;
            }
        }
        System.out.println("已匹配数量 " + count);
    }
}

总结


布隆过滤器可以一定程度上解决缓存穿透的问题,解决缓存穿透的问题核心是减少数据库的并发访问。由于 hash 碰撞的原因,布隆过滤器存在一定的误判几率,也存在不支持删除元素的问题。

相关文章
|
SQL Oracle 关系型数据库
hive中将单行拆分成多行总结
hive 中实现拆分字段到多行
9194 0
|
存储 缓存 NoSQL
京东面试:亿级黑名单 如何设计?亿级查重 呢?(答案含:布隆过滤器、布谷鸟过滤器)
尼恩,40岁的老架构师,近期在读者交流群中分享了几个大厂面试题及其解决方案。这些问题包括亿级数据查重、黑名单存储、电话号码判断、安全网址判断等。尼恩给出了三种解决方案:使用BitMap位图、BloomFilter布隆过滤器和CuckooFilter布谷鸟过滤器。这些方法不仅高效,还能显著提升面试表现。尼恩还建议大家系统化学习,刷题《尼恩Java面试宝典PDF》,并提供简历修改和面试辅导,帮助大家实现“offer自由”。更多技术资料和PDF可在公众号【技术自由圈】获取。
|
XML SQL Java
使用MyBatis时,解决表字段和实体类属性不一致问题
使用MyBatis时,解决表字段和实体类属性不一致问题
516 2
使用MyBatis时,解决表字段和实体类属性不一致问题
|
消息中间件 监控 Kafka
【Kafka】Kafka 分区Leader选举策略
【4月更文挑战第7天】【Kafka】Kafka 分区Leader选举策略
|
存储 Java Spring
SpringBoot2 | 条件注解 @ConditionalOnBean 原理源码分析(七)
SpringBoot2 | 条件注解 @ConditionalOnBean 原理源码分析(七)
251 0
|
监控 Java UED
深入了解Java服务熔断策略
在分布式系统中,服务之间的相互依赖性很高。当某个服务出现故障或网络延迟时,可能会导致整个系统的连锁反应,从而使用户体验下降甚至系统崩溃。为了解决这个问题,熔断机制应运而生。本文将深入探讨Java服务熔断策略的原理和实现方式,帮助读者更好地理解和应用该技术。
2535 0
|
Java 程序员 API
一键搞定发布自己Jar到Maven中央仓库
从零到一发布自己Jar到Maven中央仓库
一键搞定发布自己Jar到Maven中央仓库
|
NoSQL 关系型数据库 MySQL
30K成功入职京东:拿到京东offer经验分享「面试经历+面试真题」
前言 ​目前很多大型互联网公司都采用线上面试的方法来挑选人才,也有很多幸运的小伙伴也是拿到大厂的offer,今天给大家分享的是我一位幸运拿到京东offer的朋友的面试经历,上周末,我也闲来无事,问到了我朋友京东面试的一些真题,以及我整理的一些真题分享给大家。
785 0

热门文章

最新文章