布隆过滤器简介

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,内容安全 1000次 1年
对象存储 OSS,恶意文件检测 1000次 1年
简介: 布隆过滤器简介

@TOC
最近做爬虫项目过滤重复的url的时候,了解到一个东西,叫布隆过滤器,然后也学习了一下,写下这篇博客记录一下.

1.什么是布隆过滤器?

首先我们得知道布隆过滤器的概念是什么,采自wiki百科:
布隆过滤器(英语:Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难。
tips:看完这个我们可以知道是一个叫布隆的人提出的一个用来检索一个元素是否在一个集合中的算法,效率高,性能好。

1.1 图解布隆过滤器

很长的二进制向量(这里可以理解为很长的bit数组)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gLaY5JVS-1673452705107)(http://wxwwt-oss.oss-cn-hangzhou.aliyuncs.com/article_picture/%E5%B8%83%E9%9A%86%E8%BF%87%E6%BB%A4%E5%99%A8/bit%E6%95%B0%E7%BB%84.png)]
一系列的随机映射函数(hash函数)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ophodrWU-1673452705109)(http://wxwwt-oss.oss-cn-hangzhou.aliyuncs.com/article_picture/%E5%B8%83%E9%9A%86%E8%BF%87%E6%BB%A4%E5%99%A8/hash%E5%87%BD%E6%95%B0%E6%8C%87%E5%90%91xin.png)]

如图所示,将一个字符串存入布隆过滤器的时候,这个字符串会先被多个hash函数生成不同的hash值,然后在对应的bit数组的位置,将0置为1(bit数组初始化的时候,全部位置都是0);然后第二次在有相同的字符串存入的时候,因为之前已经对应的位置都被置为1了,所以可以很轻松的知道这个值已经存在了。
举个栗子,比如第一次将abc@gmail.com存入布隆过滤器,将bit数组的1,3,5位置置为了1,只要下次再有abc@gmail.com存入布隆过滤器,发现1,3,5已经是全是1了,所以可知该字符串已经保存过。(简单来说就是bit数组中对应的值只要全是1就存在,其他情况就是不存在,但是因为存在hash冲突,所以会有误判,有可能存在abc和xyz的hash值在bit数组中映射的位置是相同的。这种情况我们可以增加班名单,或者调整hash函数来减少误判情况。)

2.布隆过滤器的使用场景

知道了布隆过滤器的概念,我们再来看看在实际工作中,它主要使用在哪些地方。

2.1使用场景:

1.网络爬虫可以通过布隆过滤器判断当前的url是否已经爬取过;

2.防止恶意链接或者垃圾邮件,短信之类的,从数十亿个链接或者垃圾邮件中判断该链接(邮件发件人,短信发信人是否是在黑名单中),
平时手机上来电提示写着对方式恶意推销,外卖,这种场景也是可以用布隆过滤器来判断;

3.防止缓存击穿,将已存在的缓存放到布隆中,当使用缓存的时候,可以先访问布隆过滤器,存在则访问缓存,不存在则访问数据库;

4.检索系统查询当前的输入信息是否存在于数据库中,也可以使用布隆过滤器。

3.布隆过滤器java实现


public class BloomFilter {


    /**
     * bitSet的大小
     */
    private static final int DEFAULT_SIZE = 2 << 24;
    /**
     * 选取的hash函数
     */
    private static final int[] SEEDS = new int[]{3, 13, 46, 71, 91, 134};

    /**
     * bitSet每一位只能是true或false  其实就是bit数组说的0或者1
     */
    private BitSet bits = new BitSet(DEFAULT_SIZE);
    private SimpleHash[] func = new SimpleHash[SEEDS.length];

    public static void main(String[] args) {
        String value = "wxwwt@gmail.com";
        BloomFilter filter = new BloomFilter();
        System.out.println(filter.contains(value));
        filter.add(value);
        System.out.println(filter.contains(value));
    }

    public BloomFilter() {
        for (int i = 0; i < SEEDS.length; i++) {
            func[i] = new SimpleHash(DEFAULT_SIZE, SEEDS[i]);
        }
    }

    public void add(String value) {
        for (SimpleHash f : func) {
            bits.set(f.hash(value), true);
        }
    }

    public boolean contains(String value) {
        if (value == null) {
            return false;
        }
        boolean ret = true;
        for (SimpleHash f : func) {
            ret = ret && bits.get(f.hash(value));
        }
        return ret;
    }

    public static class SimpleHash {

        private int cap;
        private int seed;

        public SimpleHash(int cap, int seed) {
            this.cap = cap;
            this.seed = seed;
        }

        /**
         * 计算hash值
         *
         * @param value
         * @return
         */

        public int hash(String value) {
            int result = 0;
            int len = value.length();
            for (int i = 0; i < len; i++) {
                result = seed * result + value.charAt(i);
            }
            return (cap - 1) & result;
        }

    }
}

4.使用guava带的布隆过滤器

google的java工具包中已经编写了布隆过滤器的代码,可以直接拿来用,具体使用可以google一下,这里只简单的提一下:

public static void main(String[] args) {
      // 创建布隆过滤器
      BloomFilter<String> bloomFilter = BloomFilter.create(Funnels.stringFunnel(Charsets.UTF_8), 1000);

      // 添加数据
      for (int index = 0; index < 100000; index++) {
          bloomFilter.put("wxwwt-" + index);
      }

      //  查看数据是否存在
      if (bloomFilter.mightContain("wxwwt-" + 9999)) {
          System.out.println("存在");
      }
      // 误判元素
      if (bloomFilter.mightContain("不存在的元素")) {
          System.out.println("误判啦");
      } else {
          System.out.println("不存在");
      }
  }

运行结果:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JPVeafDK-1673452705110)(http://wxwwt-oss.oss-cn-hangzhou.aliyuncs.com/article_picture/%E5%B8%83%E9%9A%86%E8%BF%87%E6%BB%A4%E5%99%A8/resultofbloomfilter.png)]

5.总结:

在数据量很大的时候使用布隆过滤器非常方便,占用的内存空间很小(因为使用的是bit数组,空间使用非常小,空间开销就是bit数组的大小),查询效率也很高(直接通过计算hash函数的出来的),唯一的问题就是可能会有误判,不过概率也是比较小的,也可以通过增加白名单和增加hash函数的数量来减少这个问题的产生,总的来说利大于弊,在仅判断元素是否存在而不涉及到删除的情况下非常好用(最基本的bloomfilter是无法删除元素的,置为0就没法判断存在情况了,有bloom过滤器的变体是支持删除的)。

参考资料:

1.https://nick-weixx.github.io/2018/03/01/guava-bloomfilter_1/
2.https://zh.wikipedia.org/wiki/%E5%B8%83%E9%9A%86%E8%BF%87%E6%BB%A4%E5%99%A8
3.https://zhangluncong.com/2018/05/23/bloomFilter/

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
5月前
|
存储 缓存
victoriaMetrics库之布隆过滤器
victoriaMetrics库之布隆过滤器
48 1
|
5月前
|
存储 缓存 NoSQL
详解布隆过滤器原理与实现
详解布隆过滤器原理与实现
|
7月前
|
数据采集 NoSQL 算法
布隆过滤器实战教程
布隆过滤器实战教程
198 1
布隆过滤器实战教程
|
7月前
|
NoSQL Redis 数据库
【Redis从入门到入土】布隆过滤器简介、特点和原理
【6月更文挑战第1天】布隆过滤器是一种节省内存的不确定数据结构,用于判断元素是否可能在一个集合中。它由位数组和多个哈希函数组成,能快速插入和查询,但存在误判风险:可能存在假阳性(判断存在但实际不存在),但绝无假阴性(判断不存在则确实不存在)。适用于大规模数据的去重问题,如电话号码判断、安全网站链接检查、黑名单和白名单校验。其工作原理是通过多个哈希函数将元素映射到位数组中,添加时设置相应位置为1,查询时所有位置都为1则可能存在,有0则肯定不存在。由于哈希冲突,可能导致误判,且一旦添加元素无法删除,以避免影响其他元素。
74 4
|
8月前
|
存储 NoSQL 算法
深入浅出Redis(十一):Redis四种高级数据结构:Geosptial、Hypeloglog、Bitmap、Bloom Filter布隆过滤器
深入浅出Redis(十一):Redis四种高级数据结构:Geosptial、Hypeloglog、Bitmap、Bloom Filter布隆过滤器
|
8月前
|
存储 数据采集 索引
深入浅出数据结构之布隆过滤器
深入浅出数据结构之布隆过滤器
|
8月前
|
算法 NoSQL Redis
一文搞懂布隆过滤器(BloomFilter)
一文搞懂布隆过滤器(BloomFilter)
450 0
|
存储 数据采集 缓存
布隆过滤器:原理与应用
在日常生活和工作中,我们经常需要处理海量的数据,筛选出有用的信息。这个时候,布隆过滤器(Bloom Filter)就派上了用场。
193 1
布隆过滤器:原理与应用
|
8月前
|
存储 NoSQL Java
什么是布隆过滤器?如何实现布隆过滤器?
什么是布隆过滤器?如何实现布隆过滤器?
139 0
REDIS07_布隆过滤器BloomFilter的概述、优缺点、使用场景、底层原理、布谷鸟过滤器(三)
REDIS07_布隆过滤器BloomFilter的概述、优缺点、使用场景、底层原理、布谷鸟过滤器(三)
311 0
REDIS07_布隆过滤器BloomFilter的概述、优缺点、使用场景、底层原理、布谷鸟过滤器(三)