从C语言到C++_30(哈希)闭散列和开散列(哈希桶)的实现(中)

简介: 从C语言到C++_30(哈希)闭散列和开散列(哈希桶)的实现

从C语言到C++_30(哈希)闭散列和开散列(哈希桶)的实现(上):https://developer.aliyun.com/article/1522312

2.1.2 闭散列二次探测(了解)

线性探测的缺陷是产生冲突的数据堆积在一块,这与其找下一个空位置有关系,

因为找空位置的方式就是挨着往后逐个去找,因此二次探测为了避免该问题。

  • 线性探测:start + i,i = 0,1,2,3…
  • 二次探测:start + i^2,i = 0,1,2,3…

使用二次探测,查找时也是按照二次探测的方式去查找。

研究表明:

当表的长度为质数且表装载因子不超过0.5时,新的表项一定能够插入,

而且任何一个位置都不会被探查两次。

因此只要表中有一半的空位置,就不会存在表满的问题。在搜索时可以不考虑表装满的情况,但在插入时必须确保表的装载因子不超过0.5,如果超出必须考虑增容。

无论是线性探测还是二次探测,闭散列方式的最大缺陷就是空间利用率较低。

所以就引出了下面开散列(哈希桶)的概念。

2.2 开散列(哈希桶)概念和代码

开散列:又叫拉链法(链地址法),首先对key值集合用哈希函数计算映射下标,

具有相同下标的key值归于同一子集合,每一个子集合称为一个桶,

各个桶中的元素通过一个单链表链接起来,各链表的头结点存储在哈希表中。

如上图所示,此时的哈希表中存放的是一个单链表的头指针。

  • 不同的数据,根据哈希函数算出的映射位置发生哈希碰撞时,这些碰撞的数据会挂在哈希表对应位置指向的单链表中。这些单链表被形象称为
  • 每个桶中放的都是发生哈希冲突的元素。
  • 当有新数据插入时,进行头插。

如上图中所示,7,27,57,根据哈希函数都映射到哈希表下标为7的位置,这几个数据按照头插的顺序以单链表的形式挂在哈希表下标为7的位置。

新插入的数据如果尾插的话,在找单链表的尾部时,会有效率损失,由于没有排序要求,所以头插是效率最高的。

开散列的方法,通常被称为哈希桶,使用的也最广泛,能够解决闭散列中空间利用率不高的问题。


哈希桶会不会出现时间复杂度为O(N)的情况?极端情况是会的,但是概率极低,像前面十个空间,扩容了还会把数据分散,开了很多空间的时候,几乎不会出现极端情况,有些库还有一些备案,比如Java库:挂的桶大于8的话(这里也表明挂的桶基本是很少的),就改成挂红黑树。

基于以上原因,哈希桶和快排一样,可以不看最坏时间复杂度,而看平均复杂度:O(1)。

数据类型定义和框架(这里用HashBucket命名空间包起来,把前面的用CloseHash包起来)

namespace HashBucket
{
  template<class K, class V>
  struct HashNode
  {
    pair<K, V> _kv;
    HashNode* _next; // 不用存状态栏了,存下一个结点指针
  };
 
  template<class K>
  struct HashFunc // 可以把闭散列的HashFunc放在外面直接用,但是这就不放出来了
  {
    size_t operator()(const K& key)
    {
      return (size_t)key; // 负数,浮点数,指针等可以直接转,string不行
    }
  };
 
  template<>
  struct HashFunc<string> // 上面的特化
  {
    size_t operator()(const string& key)
    {
      size_t val = 0;
      for (const auto& ch : key)
      {
        val *= 131;
        val += ch;
      }
 
      return val;
    }
  };
 
  template<class K, class V, class Hash = HashFunc<K>>
  class HashTable
  {
  public:
    typedef HashData<K, V> Node;
 
  protected:
    vector<Node*> _tables; // 指针数组
    size_t _size;
  };
}

采用哈希桶的方式来解决哈希碰撞时,哈希表中存放的数据是单链表的头节点,

链表节点中有键值对,还有下一个节点的指针。仍然使用闭散列中转换整形的仿函数。

插入:

插入首先要去重(用查找),然后检查是否要扩容,最后再插入

先写查找:

    Node* Find(const K& key)
    {
      if (_tables.size() == 0)
      {
        return nullptr;
      }
 
      Hash hs;
      size_t hashi = hs(key) % _tables.size();
      Node* cur = _tables[hashi];
      while (cur)
      {
        if (cur->_kv.first == key)
        {
          return cur;
        }
        cur = cur->_next;
      }
      return nullptr;
    }

根据哈希函数的映射关系,直接找到key值哈希表中的存放位置。

然后在该位置挂的桶中寻找key值。

哈希桶结构,查找的效率高就高在这里,可以直接根据key值定位哈希表,时间复杂度是O(1)。


现在写插入,哈希桶的方式中也会扩容,否则桶就会越挂越长,违背了哈希桶设计的初衷。


一般情况下,当哈希表的负载因子等于1的时候,发生扩容。

当负载因子等于1时,也就是数据个数和哈希表大小相等的时候进行扩容。


扩容和闭散列类似,将旧的哈希表中的数据插入到新哈希表中,


复用Insert函数,然后旧表被释放,新表留下来。


但是这种方式不是很好,有很大的开销,效率有所损失:


在将旧表中的数据插入新表的时候,每插入一个,新表就需要new一个节点,


旧表中的所有节点都会被new一遍。然后将旧表中的所有节点再释放,


这里做了没必要的工作。相同的一个节点,会先在新表中new一个,再释放旧表的。


新表中完全可以不再new新的节点,直接使用旧表中的节点。


旧表中可以直接复用的节点是:改变了哈希表容量以后,映射关系不变的节点。


比如节点27,哈希表的容量从10变成20,但是映射后的下标仍然是7,这样的节点就可以复用。


那些映射关系变了的节点就不可以直接复用了,需要改变所在桶的位置。


如节点18,哈希表的容量从10变成20,映射后的下标从8变成18,此时就需要改变18所在的桶了。

    bool Insert(const pair<K, V>& kv)
    {
      if (Find(kv.first))
      {
        return false;
      }
 
      Hash hs;
      if (_size == _tables.size()) // 负载因子到1就扩容
      {
        size_t newSize = _tables.size() == 0 ? 10 : _tables.size() * 2;
        vector<Node*> newTables;
        newTables.resize(newSize, nullptr);
 
        for (size_t i = 0; i < _tables.size(); ++i) // 旧表中节点移动映射新表
        {
          Node* cur = _tables[i];
          while (cur)
          {
            Node* next = cur->_next;
 
            size_t hashi = hs(cur->_kv.first) % newTables.size();
            cur->_next = newTables[hashi];
            newTables[hashi] = cur;
 
            cur = next;
          }
 
          _tables[i] = nullptr;
        }
 
        _tables.swap(newTables);
      }
 
      size_t hashi = hs(kv.first) % _tables.size(); // 哈希映射
      Node* newnode = new Node(kv); // 头插
      newnode->_next = _tables[hashi];
      _tables[hashi] = newnode;
      ++_size;
    }

写完插入和查找,现在写写删除:

这里的删除就类似链表的删除,哈希表挂的桶是单链表,只指定要删除节点是无法进行删除的,

必须指定前一个节点,否则无法再链接。所以不能直接复用Find删除:

    bool Erase(const K& key)
    {
      if (_tables.size() == 0) // 防止除零错误
      {
        return false;
      }
 
      Hash hs;
      size_t hashi = hs(key) % _tables.size();
      Node* cur = _tables[hashi];
      Node* prev = nullptr;
      while (cur)
      {
        if (cur->_kv.first == key)
        {
          if (prev == nullptr) // 头插,先把指针数组存的指针指向cur的下一个
          {
            _tables[hashi] = cur->_next;
          }
          else // 中间删
          {
            prev->_next = cur->_next;
          }
          delete cur; // 统一在这delete
          return true;
        }
 
        prev = cur; // 往后走
        cur = cur->_next;
      }
      return false; // 没找到
    }

根据哈希函数的映射关系,定位到对应哈希表中挂的某个桶上。

如果key是单链表的头节点,直接让它的下一个节点当头节点就可以。

如果key不是头节点,则在删除的时候,需要prev指针的辅助来链接单链表。

由于哈希映射的存在,在寻找key时的时间复杂度同样是O(1),所以删除的效率也很高。


写到这并且想测试,我们应该意识到写个析构函数了,哈希桶必须有析构函数,闭散列的方式,


默认生成的析构函数就能满足要求,但是哈希桶不可以。如果只使用默认生成的析构函数,


在哈希桶销毁的时候,默认的析构函数会调用vector的析构函数。


vector的析构函数只会释放vector的本身,而不会释放vector上挂着的桶。


所以需要显示定义析构函数,在析构函数中将vector挂的桶进行释放。


在释放的时候,需要将单链表的下一个节点记录下来,再释放当前节点,


否则会找不到下一个节点。

    ~HashTable()
    {
      for (size_t i = 0; i < _tables.size(); ++i)
      {
        Node* cur = _tables[i];
        while (cur)
        {
          Node* next = cur->_next;
          delete cur;
          cur = next;
        }
        _tables[i] = nullptr;
      }
    }

测试:

void TestHash3() // 哈希桶测试统计次数的可以用TestHash2改下命名空间
{
  int arr[] = {1, 11, 4, 15, 26, 7, 44, 55, 99, 78};
  HashBucket::HashTable<int, int> ht;
  for (const auto& e : arr)
  {
    ht.Insert(make_pair(e, e));
  }
 
  ht.Insert(make_pair(22, 22)); // 刚好扩容
}

2.2.1 除留余数法获取素数

有研究表面,哈希表的大小最好是一个素数,这样的话能够提供哈希结构的效率,

那么如何快速获取一个类似两倍关系的素数呢?

    inline size_t __stl_next_prime(size_t n)
    {
      static const size_t __stl_num_primes = 28;
      static const size_t __stl_prime_list[__stl_num_primes] =
      {
        53, 97, 193, 389, 769,
        1543, 3079, 6151, 12289, 24593,
        49157, 98317, 196613, 393241, 786433,
        1572869, 3145739, 6291469, 12582917, 25165843,
        50331653, 100663319, 201326611, 402653189, 805306457,
        1610612741, 3221225473, 4294967291
      };
 
      for (size_t i = 0; i < __stl_num_primes; ++i)
      {
        if (__stl_prime_list[i] > n)
        {
          return __stl_prime_list[i];
        }
      }
 
      return -1; // 不会走到这,随便返回一个值
    }

上面代码是STL库中获取素数的方式。


将素数放在一个数组中,两个素数之间的关系接近二倍,但是又要符合是一个素数。

当需要进行扩容时,就从数组中寻找一个比当前素数大的素数作为新的容量。

上面数组中虽然只有28个素数,但是完全够用了,最大的素数意味着哈希表有4GB个数据,每个数据是一个指针(32位),也就是4B大小,这样来看已经有16GB的数据量了,再考虑上挂的桶中的数据,数据量是非常大,正常情况下根本没有这么大量的数据。


如果不信讲的复杂度为O(1)的那个,因为这取决于最大桶的长度,


这里可以写几个获取桶个数,最大桶个数,数据个数,表长度来验证验证:


    size_t Size() // 存的数据个数
    {
      return _size;
    }
 
    size_t TablesSize() // 表的长度
    {
      return _tables.size();
    }
 
    size_t BucketNum() // 桶的个数
    {
      size_t num = 0;
      for (size_t i = 0; i < _tables.size(); ++i)
      {
        if (_tables[i]) // 如果不是空就有桶
        {
          ++num;
        }
      }
      return num;
    }
 
    size_t MaxBucketLenth() // 最长桶的长度
    {
      size_t maxLen = 0;
      for (size_t i = 0; i < _tables.size(); ++i)
      {
        size_t len = 0;
        Node* cur = _tables[i];
        while (cur)
        {
          ++len;
          cur = cur->_next;
        }
        if (len > maxLen)
        {
          maxLen = len;
        }
      }
      return maxLen;
    }

2.2.2 开散列(哈希桶)完整代码

HashTable.h:(把上面写的闭散列CloseHash命名空间的删了)

#pragma once
 
#include <iostream>
#include <vector>
using namespace std;
 
namespace HashBucket
{
  template<class K, class V>
  struct HashNode
  {
    pair<K, V> _kv;
    HashNode* _next; // 不用存状态栏了,存下一个结点指针
 
    HashNode(const pair<K, V>& kv)
      :_kv(kv)
      , _next(nullptr)
    {}
  };
 
  template<class K>
  struct HashFunc // 可以把闭散列的HashFunc放在外面直接用,但是这就不放了
  {
    size_t operator()(const K& key)
    {
      return (size_t)key; // 负数,浮点数,指针等可以直接转,string不行
    }
  };
 
  template<>
  struct HashFunc<string> // 上面的特化
  {
    size_t operator()(const string& key)
    {
      size_t val = 0;
      for (const auto& ch : key)
      {
        val *= 131;
        val += ch;
      }
 
      return val;
    }
  };
 
  template<class K, class V, class Hash = HashFunc<K>>
  class HashTable
  {
  public:
    typedef HashNode<K, V> Node;
 
    ~HashTable()
    {
      for (size_t i = 0; i < _tables.size(); ++i)
      {
        Node* cur = _tables[i];
        while (cur)
        {
          Node* next = cur->_next;
          delete cur;
          cur = next;
        }
        _tables[i] = nullptr;
      }
    }
 
    Node* Find(const K& key)
    {
      if (_tables.size() == 0)
      {
        return nullptr;
      }
 
      Hash hs;
      size_t hashi = hs(key) % _tables.size();
      Node* cur = _tables[hashi];
      while (cur)
      {
        if (cur->_kv.first == key)
        {
          return cur;
        }
        cur = cur->_next;
      }
      return nullptr;
    }
 
    inline size_t __stl_next_prime(size_t n)
    {
      static const size_t __stl_num_primes = 28;
      static const size_t __stl_prime_list[__stl_num_primes] =
      {
        53, 97, 193, 389, 769,
        1543, 3079, 6151, 12289, 24593,
        49157, 98317, 196613, 393241, 786433,
        1572869, 3145739, 6291469, 12582917, 25165843,
        50331653, 100663319, 201326611, 402653189, 805306457,
        1610612741, 3221225473, 4294967291
      };
 
      for (size_t i = 0; i < __stl_num_primes; ++i)
      {
        if (__stl_prime_list[i] > n)
        {
          return __stl_prime_list[i];
        }
      }
 
      return -1; // 不会走到这,随便返回一个值
    }
 
    bool Insert(const pair<K, V>& kv)
    {
      if (Find(kv.first))
      {
        return false;
      }
 
      Hash hs;
      if (_size == _tables.size()) // 负载因子到1就扩容
      {
        //size_t newSize = _tables.size() == 0 ? 10 : _tables.size() * 2;
        vector<Node*> newTables;
        //newTables.resize(newSize, nullptr);
        newTables.resize(__stl_next_prime(_tables.size()), nullptr); //取素数,前两注释改成这一条
 
        for (size_t i = 0; i < _tables.size(); ++i) // 旧表中节点移动映射新表
        {
          Node* cur = _tables[i];
          while (cur)
          {
            Node* next = cur->_next;
 
            size_t hashi = hs(cur->_kv.first) % newTables.size();
            cur->_next = newTables[hashi];
            newTables[hashi] = cur;
 
            cur = next;
          }
 
          _tables[i] = nullptr;
        }
 
        _tables.swap(newTables);
      }
 
      size_t hashi = hs(kv.first) % _tables.size(); // 哈希映射
      Node* newnode = new Node(kv); // 头插
      newnode->_next = _tables[hashi];
      _tables[hashi] = newnode;
      ++_size;
      return true;
    }
 
    bool Erase(const K& key)
    {
      if (_tables.size() == 0) // 防止除零错误
      {
        return false;
      }
 
      Hash hs;
      size_t hashi = hs(key) % _tables.size();
      Node* cur = _tables[hashi];
      Node* prev = nullptr;
      while (cur)
      {
        if (cur->_kv.first == key)
        {
          if (prev == nullptr) // 头插,先把指针数组存的指针指向cur的下一个
          {
            _tables[hashi] = cur->_next;
          }
          else // 中间删
          {
            prev->_next = cur->_next;
          }
          delete cur; // 统一在这delete
          return true;
        }
 
        prev = cur; // 往后走
        cur = cur->_next;
      }
      return false; // 没找到
    }
 
    size_t Size() // 存的数据个数
    {
      return _size;
    }
 
    size_t TablesSize() // 表的长度
    {
      return _tables.size();
    }
 
    size_t BucketNum() // 桶的个数
    {
      size_t num = 0;
      for (size_t i = 0; i < _tables.size(); ++i)
      {
        if (_tables[i]) // 如果不是空就有桶
        {
          ++num;
        }
      }
      return num;
    }
 
    size_t MaxBucketLenth() // 最长桶的长度
    {
      size_t maxLen = 0;
      for (size_t i = 0; i < _tables.size(); ++i)
      {
        size_t len = 0;
        Node* cur = _tables[i];
        while (cur)
        {
          ++len;
          cur = cur->_next;
        }
        if (len > maxLen)
        {
          maxLen = len;
        }
      }
      return maxLen;
    }
 
  protected:
    vector<Node*> _tables; // 指针数组
    size_t _size;
  };
}


Test.cpp:

#include "HashTable.h"
 
void TestHash1()
{
  int arr[] = { 1, 11, 4, 15, 26, 7, 44 }; // 在加一个数据就会扩容
  CloseHash::HashTable<int, int> ht;
  for (const auto& e : arr)
  {
    ht.Insert(make_pair(e, e));
  }
  ht.Print();
 
  ht.Erase(4);
  cout << ht.Find(44) << endl; // ht.Find(44)->_kv.first就能取出数据
  cout << ht.Find(100) << endl; // 不过要先判断是否为空,否则会崩
  cout << ht.Find(4) << endl;
  ht.Print();
 
  ht.Insert(make_pair(-2, -2));
  ht.Print();
 
  cout << ht.Find(-2) << endl;
}
 
void TestHash2()
{
  string arr[] = { "苹果", "西瓜", "苹果", "西瓜", "苹果", "苹果", "西瓜", "苹果", "香蕉", "苹果", "香蕉" };
 
  //CloseHash::HashTable<string, int> countHT;
  HashBucket::HashTable<string, int> countHT;
  for (const auto& str : arr)
  {
    auto ptr = countHT.Find(str);
    if (ptr)
    {
      ptr->_kv.second++;
    }
    else
    {
      countHT.Insert(make_pair(str, 1));
    }
  }
}
 
void TestHash3() // 哈希桶测试统计次数的可以用TestHash2改下命名空间
{
  int arr[] = {1, 11, 4, 15, 26, 7, 44, 55, 99, 78};
  HashBucket::HashTable<int, int> ht;
  for (const auto& e : arr)
  {
    ht.Insert(make_pair(e, e));
  }
 
  ht.Insert(make_pair(22, 22));
}
 
void TestHash4()
{
  int n = 10000;
  vector<int> v;
  v.reserve(n);
  srand(time(0));
  for (int i = 0; i < n; ++i)
  {
    //v.push_back(i);
    v.push_back(rand() + i);  // 重复少
    //v.push_back(rand());  // 重复多
  }
 
  size_t begin1 = clock();
  HashBucket::HashTable<int, int> ht;
  for (auto e : v)
  {
    ht.Insert(make_pair(e, e));
  }
  size_t end1 = clock();
 
  cout << "数据个数:" << ht.Size() << endl;
  cout << "表的长度:" << ht.TablesSize() << endl;
  cout << "桶的个数:" << ht.BucketNum() << endl;
  cout << "平均每个桶的长度:" << (double)ht.Size() / (double)ht.BucketNum() << endl;
  cout << "最长的桶的长度:" << ht.MaxBucketLenth() << endl;
  cout << "负载因子:" << (double)ht.Size() / (double)ht.TablesSize() << endl;
}
 
int main()
{
  TestHash2();
  TestHash3();
  TestHash4();
 
  return 0;
}

没测TestHash4的:

测TestHash4的:

这是测了几次的结果:(随着负载因子的变大,桶最长也就2或3,因为桶的个数太多了)


多测了几个数量级的n,发现最长的桶的长度也就4:

从C语言到C++_30(哈希)闭散列和开散列(哈希桶)的实现(下):https://developer.aliyun.com/article/1522315?spm=a2c6h.13148508.setting.17.50c04f0emsc6o6

目录
相关文章
|
2月前
|
存储 算法 C++
【C++】哈希桶
哈希桶是哈希表中的基本存储单元,用于存放通过哈希函数映射后的数据元素。当不同元素映射至同一桶时,产生哈希冲突,常用拉链法或开放寻址法解决。哈希桶支持高效的数据插入、删除与查找操作,时间复杂度通常为O(1),但在最坏情况下可退化为O(n)。
47 6
|
3月前
|
安全 编译器 C语言
C++入门1——从C语言到C++的过渡
C++入门1——从C语言到C++的过渡
74 2
|
1月前
|
算法 编译器 C语言
【C语言】C++ 和 C 的优缺点是什么?
C 和 C++ 是两种强大的编程语言,各有其优缺点。C 语言以其高效性、底层控制和简洁性广泛应用于系统编程和嵌入式系统。C++ 在 C 语言的基础上引入了面向对象编程、模板编程和丰富的标准库,使其适合开发大型、复杂的软件系统。 在选择使用 C 还是 C++ 时,开发者需要根据项目的需求、语言的特性以及团队的技术栈来做出决策。无论是 C 语言还是 C++,了解其优缺点和适用场景能够帮助开发者在实际开发中做出更明智的选择,从而更好地应对挑战,实现项目目标。
57 0
|
3月前
|
C语言 C++
C 语言的关键字 static 和 C++ 的关键字 static 有什么区别
在C语言中,`static`关键字主要用于变量声明,使得该变量的作用域被限制在其被声明的函数内部,且在整个程序运行期间保留其值。而在C++中,除了继承了C的特性外,`static`还可以用于类成员,使该成员被所有类实例共享,同时在类外进行初始化。这使得C++中的`static`具有更广泛的应用场景,不仅限于控制变量的作用域和生存期。
70 10
|
4月前
|
算法 机器人 C语言
ROS仿真支持C++和C语言
ROS仿真支持C++和C语言
104 1
|
3月前
|
C语言 C++
实现两个变量值的互换[C语言和C++的区别]
实现两个变量值的互换[C语言和C++的区别]
30 0
|
3月前
|
存储 算法 C++
【算法】哈希映射(C/C++)
【算法】哈希映射(C/C++)
|
2月前
|
存储 编译器 C语言
【c++丨STL】string类的使用
本文介绍了C++中`string`类的基本概念及其主要接口。`string`类在C++标准库中扮演着重要角色,它提供了比C语言中字符串处理函数更丰富、安全和便捷的功能。文章详细讲解了`string`类的构造函数、赋值运算符、容量管理接口、元素访问及遍历方法、字符串修改操作、字符串运算接口、常量成员和非成员函数等内容。通过实例演示了如何使用这些接口进行字符串的创建、修改、查找和比较等操作,帮助读者更好地理解和掌握`string`类的应用。
60 2
|
2月前
|
存储 编译器 C++
【c++】类和对象(下)(取地址运算符重载、深究构造函数、类型转换、static修饰成员、友元、内部类、匿名对象)
本文介绍了C++中类和对象的高级特性,包括取地址运算符重载、构造函数的初始化列表、类型转换、static修饰成员、友元、内部类及匿名对象等内容。文章详细解释了每个概念的使用方法和注意事项,帮助读者深入了解C++面向对象编程的核心机制。
110 5
|
2月前
|
存储 编译器 C++
【c++】类和对象(中)(构造函数、析构函数、拷贝构造、赋值重载)
本文深入探讨了C++类的默认成员函数,包括构造函数、析构函数、拷贝构造函数和赋值重载。构造函数用于对象的初始化,析构函数用于对象销毁时的资源清理,拷贝构造函数用于对象的拷贝,赋值重载用于已存在对象的赋值。文章详细介绍了每个函数的特点、使用方法及注意事项,并提供了代码示例。这些默认成员函数确保了资源的正确管理和对象状态的维护。
109 4