布隆过滤器揭秘:让URL黑名单存储从640GB缩小到35.88GB!

简介: 嗨,我是小米,热衷技术分享。今天探讨利用布隆过滤器处理100亿URL黑名单的高效存储与查询问题。传统散列表需640GB内存,而布隆过滤器仅占35.88GB,误判率0.01%,极大节省资源。通过计算位数组长度与哈希函数数量,实现高效查询。我还将分享其实现代码。希望对你有所帮助!



大家好,我是小米,一个热爱分享技术的小伙伴。今天我们来聊一聊在实际工作中如何使用布隆过滤器(Bloom Filter)来处理大规模URL黑名单的存储和查询问题。

问题背景

假设我们有一个规模达到100亿的黑名单URL集合,每个URL的长度为64字节。如何高效地存储和查询这个黑名单呢?

散列表方法

我们先考虑一下常规的散列表方法。如果使用HashMap来存储这些URL:

  • 每个URL 64字节
  • 100亿个URL需要存储:100亿 * 64B = 640GB

显然,这样的存储需求是不可行的,因为它对内存的要求太高。

布隆过滤器介绍

这时候,我们可以引入布隆过滤器,它是一种高效的概率型数据结构,用于检测一个元素是否属于一个集合。布隆过滤器具有以下特点:

  • 占用空间小
  • 查询速度快
  • 允许一定的误判(即可能认为不存在的元素存在,但不会把存在的元素认为不存在)

布隆过滤器原理

布隆过滤器由一个很长的二进制位数组和一系列随机映射函数(哈希函数)组成。

  • 位数组:每个元素占用1 bit,初始时所有位都设为0。
  • 哈希函数:假设有K个哈希函数,每个函数将输入元素映射为位数组的一个下标。

插入元素

当一个元素加入布隆过滤器时,执行以下步骤:

  • 使用K个哈希函数对元素进行哈希计算,得到K个哈希值。
  • 将位数组中对应哈希值位置的bit设为1。

查询元素

查询一个元素是否在布隆过滤器中时,执行以下步骤:

  1. 使用K个哈希函数对查询元素进行哈希计算,得到K个哈希值。
  2. 检查位数组中对应哈希值位置的bit是否都为1。如果都为1,则认为该元素存在;如果有一个为0,则认为该元素不存在。

计算布隆过滤器参数

为了更好地理解布隆过滤器的存储效率,我们需要计算以下参数:

  • 位数组长度(m):我们需要选择一个合适的位数组长度来保证较低的误判率。
  • 哈希函数数量(K):哈希函数的数量也需要根据集合大小和位数组长度来确定。

假设我们允许的误判率为0.01%,我们可以使用以下公式来计算m和K:

其中,n是集合中的元素数量,p是允许的误判率。

具体计算如下:

代入公式:

通过计算,我们得出位数组的长度为287亿bit(约合35.88GB),需要20个哈希函数。这样,布隆过滤器的内存占用从原来的640GB大幅减少到了35.88GB,且具有较高的查询效率。

布隆过滤器的实现

下面是布隆过滤器的Java实现,包括初始化、添加元素和查询元素的代码。

代码说明

  • BitSet:用于存储位数组。
  • MessageDigest:用于生成哈希值。
  • add:将一个URL添加到布隆过滤器中。
  • check:检查一个URL是否存在于布隆过滤器中。
  • getHash:生成哈希值,并结合种子(seed)确保多个哈希函数的实现。
  • intToBytes:将整数转换为字节数组,用于哈希函数的种子。

这个实现使用了MD5哈希函数,可以根据需求选择其他哈希函数。通过调整位数组大小和哈希函数数量,可以在存储效率和误判率之间取得平衡。

END

布隆过滤器作为一种高效的概率型数据结构,能够在大规模数据集上实现高效的存储和查询,特别适用于URL黑名单这样的场景。通过合理地选择位数组长度和哈希函数数量,我们可以在保证较低误判率的前提下,大幅减少内存使用。

希望今天的分享能帮助大家更好地理解和应用布隆过滤器。如果大家有任何问题或需要进一步探讨,欢迎在评论区留言。我们下次再见!

我是小米,一个喜欢分享技术的29岁程序员。如果你喜欢我的文章,欢迎关注我的微信公众号软件求生,获取更多技术干货!

相关文章
|
4月前
|
机器学习/深度学习 存储 算法
基于 C++ 布隆过滤器算法的局域网上网行为控制:URL 访问过滤的高效实现研究
本文探讨了一种基于布隆过滤器的局域网上网行为控制方法,旨在解决传统黑白名单机制在处理海量URL数据时存储与查询效率低的问题。通过C++实现URL访问过滤功能,实验表明该方法可将内存占用降至传统方案的八分之一,查询速度提升约40%,假阳性率可控。研究为优化企业网络管理提供了新思路,并提出结合机器学习、改进哈希函数及分布式协同等未来优化方向。
105 0
uView queryParams 对象转URL参数
uView queryParams 对象转URL参数
189 0
|
JavaScript
vue截取URL中的参数
vue截取URL中的参数
142 0
|
前端开发 JavaScript
前端JS截取url上的参数
文章介绍了两种前端JS获取URL参数的方法:手动截取封装和使用URLSearchParams。
316 0
|
开发框架 前端开发 .NET
Asp.net Webapi 的 Post 方法不能把参数加到 URL 中?试试这样写
Asp.net Webapi 的 Post 方法不能把参数加到 URL 中?试试这样写
194 0
|
Java
JAVA 获取 URL 指定参数的值
JAVA 获取 URL 指定参数的值
173 0
|
前端开发 JavaScript
使用 JavaScript 获取 URL 参数的详细指南
【2月更文挑战第26天】
14091 2
使用 JavaScript 获取 URL 参数的详细指南
|
JavaScript 前端开发 数据格式
URL编码【详解】——Javascript对URL进行编码解码的三种方式的区别和使用场景,axios请求拦截器中对get请求的参数全部进行URL编码
URL编码【详解】——Javascript对URL进行编码解码的三种方式的区别和使用场景,axios请求拦截器中对get请求的参数全部进行URL编码
794 0
|
JavaScript
js 获取并解析 url 中参数的三种方法
js 获取并解析 url 中参数的三种方法
2041 0
|
文字识别 算法 API
视觉智能开放平台产品使用合集之在调用接口传入的图片URL参数,文件在本地或者非上海地域OSS链接,该怎么办
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
135 0
下一篇
oss教程