C++哈希应用-位图/布隆过滤器/海量数据处理(1)

简介: C++哈希应用-位图/布隆过滤器/海量数据处理(1)

零、前言


本章主要讲解C++中对哈希的应用有关方面的内容,位图,布隆,海量数据处理


一、位图


1、位图概念



  • 位图概念:


位图其实就是哈希的变形,同样通过映射来处理数据,只不过位图本身并不存储数据,而是存储标记


通过一个比特位来标记这个数据是否存在,1代表存在,0代表不存在


位图通常情况下用在数据量庞大,且数据不重复的情景下判断某个数据是否存在


相关面试题描述:

给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在这40亿个数中


注意:

遍历时间复杂度O(N);排序(O(NlogN))利用二分查找: logN;这两种方式除了效率不够高,还有个问题是内存无法完全同时加载这给40亿个不重复的无符号整数


10亿个整数为40亿字节,而10亿字节为1G,所以40亿个整数需要16G大小空间


位图解决方案:

数据是否在给定的整形数据中,结果是在或者不在,刚好是两种状态


那么可以使用一个二进制比特位来代表数据是否存在的信息,如果二进制比特位为1,代表存在,为0代表不存在


示图:小端平台上


2、位图接口的介绍以及实现

bitset中常用的成员函数如下:

成员函数 功能

set 设置指定位或所有位

reset 清空指定位或所有位

flip 反转指定位或所有位

test 获取指定位的状态

count 获取被设置位的个数

size 获取可以容纳的位的个数

any 如果有任何一个位被设置则返回true

none 如果没有位被设置则返回true

all 如果所有位都被设置则返回true

使用示例:


#include <iostream>
#include <bitset>
using namespace std;
int main()
{
  bitset<8> bs;
  bs.set(2); //设置第2位
  bs.set(4); //设置第4位
  cout << bs << endl; //00010100
  bs.flip(); //反转所有位
  cout << bs << endl; //11101011
  cout << bs.count() << endl; //6
  cout << bs.test(3) << endl; //1
  bs.reset(0); //清空第0位
  cout << bs << endl; //11101010
  bs.flip(7); //反转第7位
  cout << bs << endl; //01101010
  bs.reset(); //清空所有位
  cout << bs.none() << endl; //1
  bs.set(); //设置所有位
  cout << bs.all() << endl; //1
  return 0;
}


注:使用成员函数set、reset、flip时,若指定了某一位则操作该位,若未指定位则操作所有位


位图的简单实现:

对于底层来说一个位代表一个数的映射,那么我们以char类型来开辟对应需要空间,同时用vector进行管理


对于开辟空间,一个char类型有8个位,所以需要个数/8即为需要开辟的大小,但是整数相除为向下取整,所以需要我们多开一个空间出来


实现代码:


template<size_t N>
class bitset
{
public:
  bitset()
  {
    _bits.resize(N / 8 + 1,0);//开辟空间并置为0
    //_bits.resize((N >> 3) + 1,0);
  }
  bool test(size_t x)
  {
    size_t i = x / 8;//处于的该数组的第几个空间
    size_t j = x % 8;//处于的该空间的第几个比特位
    return _bits[i] & (1 << j);
  }
  void set(size_t x)
  {
    size_t i = x / 8;//处于的该数组的第几个空间
    size_t j = x % 8;//处于的该空间的第几个比特位
    _bits[i] |= (1 << j);//该位置置为1
  }
  void reset(size_t x)
  {
    size_t i = x / 8;//处于的该数组的第几个空间
    size_t j = x % 8;//处于的该空间的第几个比特位
    _bits[i] &= (~(1 << j));//该位置置为0
  }
private:
  vector<char> _bits;
};


3、位图的应用


  1. 快速查找某个数据是否在一个集合中
  2. 排序
  3. 求两个集合的交集、并集等
  4. 操作系统中磁盘块标记
相关文章
|
10月前
|
机器学习/深度学习 存储 算法
基于 C++ 布隆过滤器算法的局域网上网行为控制:URL 访问过滤的高效实现研究
本文探讨了一种基于布隆过滤器的局域网上网行为控制方法,旨在解决传统黑白名单机制在处理海量URL数据时存储与查询效率低的问题。通过C++实现URL访问过滤功能,实验表明该方法可将内存占用降至传统方案的八分之一,查询速度提升约40%,假阳性率可控。研究为优化企业网络管理提供了新思路,并提出结合机器学习、改进哈希函数及分布式协同等未来优化方向。
292 0
|
存储 算法 安全
企业员工数据泄露防范策略:基于 C++ 语言的布隆过滤器算法剖析[如何防止员工泄密]
企业运营过程中,防范员工泄密是信息安全领域的核心议题。员工泄密可能致使企业核心数据、商业机密等关键资产的流失,进而给企业造成严重损失。为应对这一挑战,借助恰当的数据结构与算法成为强化信息防护的有效路径。本文专注于 C++ 语言中的布隆过滤器算法,深入探究其在防范员工泄密场景中的应用。
274 8
|
存储 搜索推荐 Serverless
【C++航海王:追寻罗杰的编程之路】哈希的应用——位图 | 布隆过滤器
【C++航海王:追寻罗杰的编程之路】哈希的应用——位图 | 布隆过滤器
144 1
|
存储 算法 C++
【算法】哈希映射(C/C++)
【算法】哈希映射(C/C++)
|
存储 缓存 NoSQL
【C++】哈希容器
【C++】哈希容器
|
存储 Serverless C++
【C++航海王:追寻罗杰的编程之路】一篇文章带你认识哈希
【C++航海王:追寻罗杰的编程之路】一篇文章带你认识哈希
209 0
|
编译器 C++ 开发者
【C++篇】深度解析类与对象(下)
在上一篇博客中,我们学习了C++的基础类与对象概念,包括类的定义、对象的使用和构造函数的作用。在这一篇,我们将深入探讨C++类的一些重要特性,如构造函数的高级用法、类型转换、static成员、友元、内部类、匿名对象,以及对象拷贝优化等。这些内容可以帮助你更好地理解和应用面向对象编程的核心理念,提升代码的健壮性、灵活性和可维护性。
|
编译器 C++ 容器
【c++11】c++11新特性(上)(列表初始化、右值引用和移动语义、类的新默认成员函数、lambda表达式)
C++11为C++带来了革命性变化,引入了列表初始化、右值引用、移动语义、类的新默认成员函数和lambda表达式等特性。列表初始化统一了对象初始化方式,initializer_list简化了容器多元素初始化;右值引用和移动语义优化了资源管理,减少拷贝开销;类新增移动构造和移动赋值函数提升性能;lambda表达式提供匿名函数对象,增强代码简洁性和灵活性。这些特性共同推动了现代C++编程的发展,提升了开发效率与程序性能。
475 12
|
10月前
|
人工智能 机器人 编译器
c++模板初阶----函数模板与类模板
class 类模板名private://类内成员声明class Apublic:A(T val):a(val){}private:T a;return 0;运行结果:注意:类模板中的成员函数若是放在类外定义时,需要加模板参数列表。return 0;
254 0
|
10月前
|
存储 编译器 程序员
c++的类(附含explicit关键字,友元,内部类)
本文介绍了C++中类的核心概念与用法,涵盖封装、继承、多态三大特性。重点讲解了类的定义(`class`与`struct`)、访问限定符(`private`、`public`、`protected`)、类的作用域及成员函数的声明与定义分离。同时深入探讨了类的大小计算、`this`指针、默认成员函数(构造函数、析构函数、拷贝构造、赋值重载)以及运算符重载等内容。 文章还详细分析了`explicit`关键字的作用、静态成员(变量与函数)、友元(友元函数与友元类)的概念及其使用场景,并简要介绍了内部类的特性。
402 0