了解数据库中的布隆过滤器原理

本文涉及的产品
云数据库 Tair(兼容Redis),内存型 2GB
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
简介: 【5月更文挑战第17天】本文介绍布隆过滤器是一种空间高效的的数据结构,用于判断一个元素是否可能在一个集合中。它包含一个位图和多个哈希函数。

1 简介

布隆过滤器是一种节省空间的方式,用来存储有关键列表的信息。
在其中,有一个位图和一个哈希函数。

计算存储在 SST 中的键的哈希值,并将结果用于将位图中的某些位设置为“1”。当您想知道列表中是否存在某个键时,您可以通过哈希函数运行它并检查位图中的相应位是“1”还是“0”。

如果其中一个位是“0”,您确定该密钥不在列表中。如果所有位均为“1”,则可能存在该值。误报的概率仅取决于几个因素:

位图的大小
列表中的键数
每个键值设置为“1”的位数

布隆过滤器是具有空间效率和概率性的独特属性的数据结构。我们将在博客后面详细介绍这两个属性。

2 两个概念

为了更好地了解布隆过滤器,让我们阅读布隆过滤器所依赖的 2 个概念。

  • 位数组

它是一种数组数据结构,其中仅存储布尔值。它用于将位数组中某个域的值与 {0, 1} 映射

    []  []  []  []  []
     1   2   3   4   5
  • 哈希函数
    哈希函数与任何其他函数一样,接受输入并应用一些算法将输入更改为称为哈希值的输出。

    输入 --> 哈希函数 SHA-1 ---> 哈希值

哈希值有多种应用,最常见的应用之一是将哈希值存储在哈希表中以加快检索速度。应用于转换输入的算法的一个示例是 SHA-1。

哈希函数的特性使其成为将其用于布隆过滤器的理想选择:

无论输入是什么,输出的长度都保持不变。
每次传递相同的输入时,它都会给出相同的输出。
您可以阅读有关哈希函数的更多信息这里打开一个新窗口.

3 它是如何工作的?

为了了解布隆过滤器的工作原理,让我们举一个用例,我们想在位数组中存储单词“Marvel”。

让我们将其工作分解为几个步骤。

初始化位数组。
将参数传递到一组哈希函数中。
收集每个哈希函数的输出。
应用一些数学逻辑来获取要更新的位,在我们的例子中,我们使用模运算。
使用值 1 更新上一步中获得的位。
让我们看一下图表,看看同样的过程在运行。

我们已经初始化了大小为 100 的位数组,默认值为 0。

[] [] [] ... []
 1  2  3     100

将参数传递给一组哈希函数。 函数进行一些输出

输入 --->  哈希函数  ---> 4456326
    --->  哈希函数   ---> 4456326
    ...

现在我们将模运算应用于哈希函数的每个输出,我们将通过位数组的大小对其进行调制。

这些是我们需要更新以将“Marvel”存储在位数组中的位。

[1] [0] [1] [1] [0] [0] [0] [0] [0] [0]
 1   2   3   4   5   6   7   8   9   10

4 小结

在布隆过滤器的哈希函数将键映射到位图的特定位置,设置为1。

查询时,通过同样哈希函数检查位图,全1则可能存在,有0则肯定不存在。

误报概率与位图大小、键数量和哈希位数相关。其工作流程包括初始化位数组、应用哈希函数、更新位数组。

布隆过滤器在存储和查找时利用位数组和哈希函数的特性,实现概率性查找。

现在,如果我们想在布隆过滤器中搜索任何单词,我们遵循相同的过程,除了不是用 1 更新位,而是在这些位中获取存储的值,如果所有值均为 1,则意味着该元素存在于集合中。

目录
相关文章
|
26天前
|
存储 缓存 网络安全
南大通用GBase 8s 数据库 RHAC集群基本原理和搭建步骤
南大通用GBase 8s 数据库 RHAC集群基本原理和搭建步骤
|
2月前
|
缓存 算法 关系型数据库
Mysql(3)—数据库相关概念及工作原理
数据库是一个以某种有组织的方式存储的数据集合。它通常包括一个或多个不同的主题领域或用途的数据表。
83 5
Mysql(3)—数据库相关概念及工作原理
|
1月前
|
存储 Java 关系型数据库
在Java开发中,数据库连接是应用与数据交互的关键环节。本文通过案例分析,深入探讨Java连接池的原理与最佳实践
在Java开发中,数据库连接是应用与数据交互的关键环节。本文通过案例分析,深入探讨Java连接池的原理与最佳实践,包括连接创建、分配、复用和释放等操作,并通过电商应用实例展示了如何选择合适的连接池库(如HikariCP)和配置参数,实现高效、稳定的数据库连接管理。
66 2
|
6月前
|
存储 关系型数据库 MySQL
MySQL数据库进阶第六篇(InnoDB引擎架构,事务原理,MVCC)
MySQL数据库进阶第六篇(InnoDB引擎架构,事务原理,MVCC)
|
2月前
|
SQL 关系型数据库 数据库
SQL数据库:核心原理与应用实践
随着信息技术的飞速发展,数据库管理系统已成为各类组织和企业中不可或缺的核心组件。在众多数据库管理系统中,SQL(结构化查询语言)数据库以其强大的数据管理能力和灵活性,广泛应用于各类业务场景。本文将深入探讨SQL数据库的基本原理、核心特性以及实际应用。一、SQL数据库概述SQL数据库是一种关系型数据库
109 5
|
2月前
|
SQL 关系型数据库 MySQL
sql注入原理与实战(三)数据库操作
sql注入原理与实战(三)数据库操作
sql注入原理与实战(三)数据库操作
|
2月前
|
SQL 存储 Java
sql注入原理与实战(二)数据库原理
sql注入原理与实战(二)数据库原理
|
4月前
|
消息中间件 Kafka 数据库
深入理解Kafka的数据一致性原理及其与传统数据库的对比
【8月更文挑战第24天】在分布式系统中,确保数据一致性至关重要。传统数据库利用ACID原则保障事务完整性;相比之下,Kafka作为高性能消息队列,采用副本机制与日志结构确保数据一致性。通过同步所有副本上的数据、维护消息顺序以及支持生产者的幂等性操作,Kafka在不牺牲性能的前提下实现了高可用性和数据可靠性。这些特性使Kafka成为处理大规模数据流的理想工具。
105 6
|
5月前
|
存储 SQL 关系型数据库
(六)MySQL索引原理篇:深入数据库底层揭开索引机制的神秘面纱!
《索引原理篇》它现在终于来了!但对于索引原理及底层实现,相信大家多多少少都有了解过,毕竟这也是面试过程中出现次数较为频繁的一个技术点。在本文中就来一窥`MySQL`索引底层的神秘面纱!
395 5
|
5月前
|
SQL 存储 安全
SQL数据库:核心原理、应用实践与未来展望
在电子商务领域,SQL数据库用于存储商品信息、用户信息、订单信息等。通过SQL数据库,电商平台可以实现商品的快速检索、用户行为的跟踪分析、订单状态的实时更新等功能,提升用户体验和运营效率。