C++哈希应用-位图/布隆过滤器/海量数据处理(1)

简介: C++哈希应用-位图/布隆过滤器/海量数据处理(1)

零、前言


本章主要讲解C++中对哈希的应用有关方面的内容,位图,布隆,海量数据处理


一、位图


1、位图概念



  • 位图概念:


位图其实就是哈希的变形,同样通过映射来处理数据,只不过位图本身并不存储数据,而是存储标记


通过一个比特位来标记这个数据是否存在,1代表存在,0代表不存在


位图通常情况下用在数据量庞大,且数据不重复的情景下判断某个数据是否存在


相关面试题描述:

给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在这40亿个数中


注意:

遍历时间复杂度O(N);排序(O(NlogN))利用二分查找: logN;这两种方式除了效率不够高,还有个问题是内存无法完全同时加载这给40亿个不重复的无符号整数


10亿个整数为40亿字节,而10亿字节为1G,所以40亿个整数需要16G大小空间


位图解决方案:

数据是否在给定的整形数据中,结果是在或者不在,刚好是两种状态


那么可以使用一个二进制比特位来代表数据是否存在的信息,如果二进制比特位为1,代表存在,为0代表不存在


示图:小端平台上


2、位图接口的介绍以及实现

bitset中常用的成员函数如下:

成员函数 功能

set 设置指定位或所有位

reset 清空指定位或所有位

flip 反转指定位或所有位

test 获取指定位的状态

count 获取被设置位的个数

size 获取可以容纳的位的个数

any 如果有任何一个位被设置则返回true

none 如果没有位被设置则返回true

all 如果所有位都被设置则返回true

使用示例:


#include <iostream>
#include <bitset>
using namespace std;
int main()
{
  bitset<8> bs;
  bs.set(2); //设置第2位
  bs.set(4); //设置第4位
  cout << bs << endl; //00010100
  bs.flip(); //反转所有位
  cout << bs << endl; //11101011
  cout << bs.count() << endl; //6
  cout << bs.test(3) << endl; //1
  bs.reset(0); //清空第0位
  cout << bs << endl; //11101010
  bs.flip(7); //反转第7位
  cout << bs << endl; //01101010
  bs.reset(); //清空所有位
  cout << bs.none() << endl; //1
  bs.set(); //设置所有位
  cout << bs.all() << endl; //1
  return 0;
}


注:使用成员函数set、reset、flip时,若指定了某一位则操作该位,若未指定位则操作所有位


位图的简单实现:

对于底层来说一个位代表一个数的映射,那么我们以char类型来开辟对应需要空间,同时用vector进行管理


对于开辟空间,一个char类型有8个位,所以需要个数/8即为需要开辟的大小,但是整数相除为向下取整,所以需要我们多开一个空间出来


实现代码:


template<size_t N>
class bitset
{
public:
  bitset()
  {
    _bits.resize(N / 8 + 1,0);//开辟空间并置为0
    //_bits.resize((N >> 3) + 1,0);
  }
  bool test(size_t x)
  {
    size_t i = x / 8;//处于的该数组的第几个空间
    size_t j = x % 8;//处于的该空间的第几个比特位
    return _bits[i] & (1 << j);
  }
  void set(size_t x)
  {
    size_t i = x / 8;//处于的该数组的第几个空间
    size_t j = x % 8;//处于的该空间的第几个比特位
    _bits[i] |= (1 << j);//该位置置为1
  }
  void reset(size_t x)
  {
    size_t i = x / 8;//处于的该数组的第几个空间
    size_t j = x % 8;//处于的该空间的第几个比特位
    _bits[i] &= (~(1 << j));//该位置置为0
  }
private:
  vector<char> _bits;
};


3、位图的应用


  1. 快速查找某个数据是否在一个集合中
  2. 排序
  3. 求两个集合的交集、并集等
  4. 操作系统中磁盘块标记
相关文章
|
4月前
|
Ubuntu API C++
C++标准库、Windows API及Ubuntu API的综合应用
总之,C++标准库、Windows API和Ubuntu API的综合应用是一项挑战性较大的任务,需要开发者具备跨平台编程的深入知识和丰富经验。通过合理的架构设计和有效的工具选择,可以在不同的操作系统平台上高效地开发和部署应用程序。
217 11
|
11月前
|
存储 负载均衡 算法
基于 C++ 语言的迪杰斯特拉算法在局域网计算机管理中的应用剖析
在局域网计算机管理中,迪杰斯特拉算法用于优化网络路径、分配资源和定位故障节点,确保高效稳定的网络环境。该算法通过计算最短路径,提升数据传输速率与稳定性,实现负载均衡并快速排除故障。C++代码示例展示了其在网络模拟中的应用,为企业信息化建设提供有力支持。
323 15
|
算法 Serverless 数据处理
从集思录可转债数据探秘:Python与C++实现的移动平均算法应用
本文探讨了如何利用移动平均算法分析集思录提供的可转债数据,帮助投资者把握价格趋势。通过Python和C++两种编程语言实现简单移动平均(SMA),展示了数据处理的具体方法。Python代码借助`pandas`库轻松计算5日SMA,而C++代码则通过高效的数据处理展示了SMA的计算过程。集思录平台提供了详尽且及时的可转债数据,助力投资者结合算法与社区讨论,做出更明智的投资决策。掌握这些工具和技术,有助于在复杂多变的金融市场中挖掘更多价值。
471 12
|
编译器 C++ 开发者
【C++篇】深度解析类与对象(下)
在上一篇博客中,我们学习了C++的基础类与对象概念,包括类的定义、对象的使用和构造函数的作用。在这一篇,我们将深入探讨C++类的一些重要特性,如构造函数的高级用法、类型转换、static成员、友元、内部类、匿名对象,以及对象拷贝优化等。这些内容可以帮助你更好地理解和应用面向对象编程的核心理念,提升代码的健壮性、灵活性和可维护性。
|
10月前
|
编译器 C++ 容器
【c++11】c++11新特性(上)(列表初始化、右值引用和移动语义、类的新默认成员函数、lambda表达式)
C++11为C++带来了革命性变化,引入了列表初始化、右值引用、移动语义、类的新默认成员函数和lambda表达式等特性。列表初始化统一了对象初始化方式,initializer_list简化了容器多元素初始化;右值引用和移动语义优化了资源管理,减少拷贝开销;类新增移动构造和移动赋值函数提升性能;lambda表达式提供匿名函数对象,增强代码简洁性和灵活性。这些特性共同推动了现代C++编程的发展,提升了开发效率与程序性能。
419 12
|
8月前
|
人工智能 机器人 编译器
c++模板初阶----函数模板与类模板
class 类模板名private://类内成员声明class Apublic:A(T val):a(val){}private:T a;return 0;运行结果:注意:类模板中的成员函数若是放在类外定义时,需要加模板参数列表。return 0;
226 0
|
8月前
|
存储 编译器 程序员
c++的类(附含explicit关键字,友元,内部类)
本文介绍了C++中类的核心概念与用法,涵盖封装、继承、多态三大特性。重点讲解了类的定义(`class`与`struct`)、访问限定符(`private`、`public`、`protected`)、类的作用域及成员函数的声明与定义分离。同时深入探讨了类的大小计算、`this`指针、默认成员函数(构造函数、析构函数、拷贝构造、赋值重载)以及运算符重载等内容。 文章还详细分析了`explicit`关键字的作用、静态成员(变量与函数)、友元(友元函数与友元类)的概念及其使用场景,并简要介绍了内部类的特性。
357 0
|
11月前
|
设计模式 安全 C++
【C++进阶】特殊类设计 && 单例模式
通过对特殊类设计和单例模式的深入探讨,我们可以更好地设计和实现复杂的C++程序。特殊类设计提高了代码的安全性和可维护性,而单例模式则确保类的唯一实例性和全局访问性。理解并掌握这些高级设计技巧,对于提升C++编程水平至关重要。
215 16
|
编译器 C语言 C++
类和对象的简述(c++篇)
类和对象的简述(c++篇)
|
11月前
|
编译器 C++
类和对象(中 )C++
本文详细讲解了C++中的默认成员函数,包括构造函数、析构函数、拷贝构造函数、赋值运算符重载和取地址运算符重载等内容。重点分析了各函数的特点、使用场景及相互关系,如构造函数的主要任务是初始化对象,而非创建空间;析构函数用于清理资源;拷贝构造与赋值运算符的区别在于前者用于创建新对象,后者用于已存在的对象赋值。同时,文章还探讨了运算符重载的规则及其应用场景,并通过实例加深理解。最后强调,若类中存在资源管理,需显式定义拷贝构造和赋值运算符以避免浅拷贝问题。