用C++实现一个哈希桶并封装实现 unordered_map 和 unordered_set

简介: 用C++实现一个哈希桶并封装实现 unordered_map 和 unordered_set



哈希桶,又叫开散列法。开散列法又叫链地址法(开链法),首先对关键码集合用散列函数计算散列地址,具有相同地址的关键码归于同一子集合,每一个子集合称为一个桶,各个桶中的元素通过一个单链表链接起来,各链表的头结点存储在哈希表中。具体如下图例:

哈希桶的实现原理

首先,思路是用 vector 来作为基础容器,里面存储的数据类型是一个结构器结点类型,结点中存储模板类型的数据和 _next 指针。当要插入数据的时候,先根据这个数据利用除留余数法计算出它的 hashi,然后再头插到对应 vector 的位置。

一般设置哈希桶的负载因子为1,当哈希桶的负载因子恰好等于 1 的时候,就要进行扩容。哈希表的扩容必须要异地扩容并且将原哈希桶中的数据再次挨个插入到新的哈希桶中,最后将这个哈希桶的数据与原来的哈希桶交换。当然,析构函数也要自己来写,因为必须将所有结点挨个释放!

哈希表的查找。哈希表的查找效率是非常高的,几乎接近于 O(1)。先计算出要查找数据的 hashi,再根据以 hashi 为头结点的链表往下查找与之对应的数据,并返回找到位置的指针。如果找不到,就返回空指针。

哈希表的删除。 哈希表的删除也是查找的那一套思路,但需要记录一个prev指针,因为需要对prev指针和 next 指针进行链接。

封装 unordered_map 和 unordered_set

说实话这个封装,真是让人太头大了。

我就在这里介绍几个比较容易出错的点。

前置声明,可以解决相互依赖的问题,当定义在源文件靠上位置的类想使用靠下位置的类时,而编译器又只能向上,所以要在靠上位置的类前面声明一下。例如在迭代器类中想使用哈希表,就需要提前声明一下。

格式就是上图中写的:

模板参数列表

class 类名

一个类 A 想访问另一个类 B 的私有,需要在类 B 中友元声明 类 A,且友元声明的位置可以在任意位置(public private protected),这样,类 A 中就可以访问类 B 的私有了!

代码实现

(里面一些需要注意的点都在代码中注释标注)

HashTable.h

#pragma once
#include <iostream>
#include <vector>
#include <string>
using namespace std;
namespace Hash_backet
{
  template<class T>
  struct HashNode
  {
    HashNode(const T& data)
      :_next(nullptr)
      , _data(data)
    {}
    HashNode<T>* _next;
    T _data;
  };
  template<class K>
  struct HashOfi
  {
    size_t operator()(const K& key)
    {
      return (size_t)key;
    }
  };
  template<>
  struct HashOfi<string>
  {
    size_t operator()(const string& key)
    {
      size_t hashi = 0;
      for (size_t i = 0; i < key.size(); i++)
      {
        hashi *= 31;
        hashi += key[i];
      }
      return hashi;
    }
  };
  template<class K, class T, class KeyOfT, class Hash>
  class HashTable;
  template<class K, class T, class KeyOFT, class Hash, class Ptr, class Ref>
  class __HashIterator
  {
    template<class K, class Hash>
    friend class unordered_set;
    template<class K, class T, class Hash>
    friend class unordered_map;
    template<class K, class T, class KeyOfT, class Hash>
    friend class HashTable;
    typedef __HashIterator<K, T, KeyOFT, Hash, Ptr, Ref> self;
    typedef HashNode<T> Node; 
  public:
    __HashIterator(Node* node, HashTable<K, T, KeyOFT, Hash>* php)
      :_node(node)
      ,_php(php)
    {}
    __HashIterator(Node* node, const HashTable<K, T, KeyOFT, Hash>* php)
      :_node(node)
      , _php(php)
    {}
    Hash ky;
    KeyOFT kt;
    const HashTable<K, T, KeyOFT, Hash>* _php;
    self& operator++()
    {
      if (_node->_next)
      {
        _node = _node->_next;
      }
      else
      {
        size_t hashi = ky(kt(_node->_data)) % _php->_tables.size();
        ++hashi;
        while (hashi < _php->_tables.size())
        {
          if (_php->_tables[hashi])
          {
            _node = _php->_tables[hashi];
            break;
          }
          hashi++;
        }
        if (hashi == _php->_tables.size())
        {
          _node = nullptr;
        }
      }
      return *this;
    }
    bool operator!=(const self &it)
    {
      return _node != it._node;
    }
    Ref operator*()
    {
      return _node->_data;
    }
    Ptr operator->()
    {
      return &_node->_data;
    }
  private:
    Node* _node;
  };
 
  template<class K, class T, class KeyOfT, class Hash>
  class HashTable
  {
    typedef HashNode<T> Node;
  public:
    template<class K, class T, class KeyOFT, class Hash, class Ptr, class Ref>
    friend class __HashIterator; // 后面要使用 __Iterator 的私有,因此要在类内友元声明
    typedef __HashIterator<K, T, KeyOfT, Hash, T*, T&> iterator;
    typedef __HashIterator<K, T, KeyOfT, Hash, const T*, const T&> const_iterator;
    KeyOfT kt;
    Hash ky;
    HashTable()
    {
      _tables.resize(10);
    }
    iterator begin()
    {
      for (size_t i = 0; i < _tables.size(); i++)
      {
        Node* cur = _tables[i];
        if (cur)
        {
          return iterator(cur, this);
        }
      }
      return end();
    }
    iterator end()
    {
      return iterator(nullptr, this);
    }
    const_iterator begin() const
    {
      for (size_t i = 0; i < _tables.size(); i++)
      {
        Node* cur = _tables[i];
        if (cur)
        {
          return const_iterator(cur, this);
        }
      }
      return end();
    }
    const_iterator end() const
    {
      return const_iterator(nullptr, this);
    }
    iterator Find(const K& key)
    {
      size_t hashi = ky(key) % _tables.size();
      Node* cur = _tables[hashi];
      while (cur)
      {
        if (kt(cur->_data) == key)
        {
          return iterator(cur,this);
        }
        cur = cur->_next;
      }
      return iterator(nullptr, this);
    }
    pair<iterator, bool> Insert(const T& data)
    {
      if (Find(kt(data))._node)  //要使用_node 需要在前面进行友元声明
      {
        // 有元素,不允许插入
        return make_pair(Find(kt(data)),false);
      }
      if (_n == _tables.size())
      {
        // 扩容,异地扩容,直接将结点挨个弄下去
        HashTable<K, T, KeyOfT, Hash> newht;
        size_t newsize = 2 * _tables.size();
        newht._tables.resize(newsize);
        for (size_t i = 0; i < _tables.size(); i++)
        {
          if (_tables[i]) // 顺序表元素数组结点不为空
          {
            // 将这个结点的结点全部拿下来,链接到新结点
            Node* cur = _tables[i];
            while (cur)
            {
              newht.Insert(cur->_data);
              cur = cur->_next;
            }
          }
        }
        _tables.swap(newht._tables);
      }
      // 计算 hashi
      size_t hashi = ky(kt(data)) % _tables.size();
      // 头插
      Node* newnode = new Node(data);
      newnode->_next = _tables[hashi];
      _tables[hashi] = newnode;
      _n++;
      return make_pair(iterator(_tables[hashi], this),true);
    }
    bool Erase(const K& key)
    {
      size_t hashi = ky(key) % _tables.size();
      Node* cur = _tables[hashi];
      if (cur)
      {
        Node* prev = nullptr;
        while (cur)
        {
          if (kt(cur->_data) == key)
          {
            if (cur == _tables[hashi])
            {
              _tables[hashi] = cur->_next;
            }
            else
            {
              Node* next = cur->_next;
              prev->_next = next;
            }
            delete cur;
            break;
          }
          prev = cur;
          cur = cur->_next;
        }
        return true;
      }
      else
      {
        return false;
      }
    }
    ~HashTable()
    {
      for (size_t i = 0; i < _tables.size(); i++)
      {
        Node* cur = _tables[i];
        if (cur)
        {
          Node* next = cur->_next;
          delete cur;
          cur = next;
        }
      }
    }
  private:
    vector<Node*> _tables;
    size_t _n = 0;
  };
}

MyUnorderedMap.h

#pragma once
#include "HashTable.h"
namespace Hash_backet
{ 
  template<class K, class T, class Hash = HashOfi<K>>
  class unordered_map
  {
  public:
    struct UnMapKeyOfT
    {
      const K& operator()(const pair<K, T>& kv)
      {
        return kv.first;
      }
    };
    // 通过类域去访问HashTable 里面的 iterator,编译器其实是不能区分到底是 静态成员变量 还是 内嵌类型 的
    // 前面加一个 typename,就相当于一个给编译器的声明,这是一个内嵌类型(保证编译的时候不会报错),等到实例化的时候,再找具体的类来替换
    typedef typename Hash_backet::HashTable<K, pair<const K, T>, UnMapKeyOfT, Hash>::iterator iterator; 
    typedef typename Hash_backet::HashTable<K, pair<const K, T>, UnMapKeyOfT, Hash>::const_iterator const_iterator;
    pair<iterator, bool> insert(const pair<K, T>& kv)
    {
      return _ht.Insert(kv);
    }
    T& operator[](const K& key)
    {
      return (_ht.insert(make_pair(key, T()))).first->second; // -> 可以得到 _data 的引用,相当于 first._node.second
    }
    const T& operator[](const K& key) const
    {
      return (_ht.insert(make_pair(key, T()))).first->second; // -> 可以得到 _data 的引用,相当于 first._node.second
    }
    iterator find(const K& key)
    {
      return _ht.Find(key);
    }
    bool erase(const K& key)
    {
      return _ht.Erase(key);
    }
    iterator begin()
    {
      return _ht.begin();
    }
    iterator end()
    {
      return _ht.end();
    }
    const_iterator begin() const // const 放后面,表明调用这个成员函数的对象是用 const 来修饰的
    {
      return _ht.begin();
    }
    const_iterator end() const  // const 放后面,表明调用这个成员函数的对象是用 const 来修饰的
    {
      return _ht.end();
    }
  private:
    HashTable<K, pair<const K, T>, UnMapKeyOfT, Hash> _ht;
  };
}

MyUnorderedSet.h

#pragma once
#include "HashTable.h"
namespace Hash_backet
{
  template<class K, class Hash = HashOfi<K>>
  class unordered_set
  {
  public:
    struct UnSetKeyOfT
    {
      const K& operator()(const K& key)
      {
        return key;
      }
    };
    // 通过类域去访问HashTable 里面的 iterator,编译器其实是不能区分到底是 静态成员变量 还是 内嵌类型 的
    // 前面加一个 typename,就相当于一个给编译器的声明,这是一个内嵌类型(保证编译的时候不会报错),等到实例化的时候,再找具体的类来替换
    typedef typename Hash_backet::HashTable<K, K, UnSetKeyOfT, Hash>::const_iterator iterator;
    typedef typename Hash_backet::HashTable<K, K, UnSetKeyOfT, Hash>::const_iterator const_iterator;
    pair<iterator, bool> insert(const K& key)
    {
      auto ret = _ht.Insert(key);
      return pair<const_iterator, bool>(const_iterator(ret.first._node, ret.first._php), ret.second);
    }
    iterator find(const K& key)
    {
      auto ret = _ht.Find(key);
      return iterator(ret._node, ret._php);
    }
    bool erase(const K& key)
    {
      return _ht.Erase(key);
    }
    const_iterator begin() const // 无论是 iterator 还是 const_iterator 都调用 HashTable 中 const 类型的end() 和 begin()
    {
      return _ht.begin();
    }
    const_iterator end() const
    {
      return _ht.end();
    }
  private:
    HashTable<K, K, UnSetKeyOfT, Hash> _ht;
  };
}
相关文章
|
3月前
|
存储 JavaScript Java
(Python基础)新时代语言!一起学习Python吧!(四):dict字典和set类型;切片类型、列表生成式;map和reduce迭代器;filter过滤函数、sorted排序函数;lambda函数
dict字典 Python内置了字典:dict的支持,dict全称dictionary,在其他语言中也称为map,使用键-值(key-value)存储,具有极快的查找速度。 我们可以通过声明JS对象一样的方式声明dict
298 2
|
6月前
|
存储 缓存 JavaScript
Set和Map有什么区别?
Set和Map有什么区别?
508 1
|
3月前
|
存储 算法 容器
set_map的实现+set/map加持秒杀高频算法题锻炼算法思维
`set`基于红黑树实现,支持有序存储、自动去重,增删查效率为O(logN)。通过仿函数可自定义排序规则,配合空间配置器灵活管理内存。不支持修改元素值,迭代器失效需注意。`multiset`允许重复元素。常用于去重、排序及查找场景。
|
7月前
|
存储 JavaScript 前端开发
for...of循环在遍历Set和Map时的注意事项有哪些?
for...of循环在遍历Set和Map时的注意事项有哪些?
369 121
|
10月前
|
编译器 C++ 容器
【c++丨STL】基于红黑树模拟实现set和map(附源码)
本文基于红黑树的实现,模拟了STL中的`set`和`map`容器。通过封装同一棵红黑树并进行适配修改,实现了两种容器的功能。主要步骤包括:1) 修改红黑树节点结构以支持不同数据类型;2) 使用仿函数适配键值比较逻辑;3) 实现双向迭代器支持遍历操作;4) 封装`insert`、`find`等接口,并为`map`实现`operator[]`。最终,通过测试代码验证了功能的正确性。此实现减少了代码冗余,展示了模板与仿函数的强大灵活性。
289 2
|
7月前
|
存储 C++ 容器
unordered_set、unordered_multiset、unordered_map、unordered_multimap的介绍及使用
unordered_set是不按特定顺序存储键值的关联式容器,其允许通过键值快速的索引到对应的元素。在unordered_set中,元素的值同时也是唯一地标识它的key。在内部,unordered_set中的元素没有按照任何特定的顺序排序,为了能在常数范围内找到指定的key,unordered_set将相同哈希值的键值放在相同的桶中。unordered_set容器通过key访问单个元素要比set快,但它通常在遍历元素子集的范围迭代方面效率较低。它的迭代器至少是前向迭代器。前向迭代器的特性。
337 0
|
7月前
|
编译器 C++ 容器
用一棵红黑树同时封装出map和set
再完成上面的代码后,我们的底层代码已经完成了,这时候已经是一个底层STL的红黑树了,已经已符合库里面的要求了,这时候我们是需要给他穿上对应的“衣服”,比如穿上set的“衣服”,那么这个穿上set的“衣服”,那么他就符合库里面set的要求了,同样map一样,这时候我们就需要实现set与map了。因此,上层容器map需要向底层红黑树提供一个仿函数,用于获取T当中的键值Key,这样一来,当底层红黑树当中需要比较两个结点的键值时,就可以通过这个仿函数来获取T当中的键值了。我们就可以使用仿函数了。
106 0
|
7月前
|
存储 编译器 容器
set、map、multiset、multimap的介绍及使用以及区别,注意事项
set是按照一定次序存储元素的容器,使用set的迭代器遍历set中的元素,可以得到有序序列。set当中存储元素的value都是唯一的,不可以重复,因此可以使用set进行去重。set默认是升序的,但是其内部默认不是按照大于比较,而是按照小于比较。set中的元素不能被修改,因为set在底层是用二叉搜索树来实现的,若是对二叉搜索树当中某个结点的值进行了修改,那么这棵树将不再是二叉搜索树。
284 0
|
7月前
|
安全 Java 数据库连接
让我们讲解一下 Map 集合遍历的方式
我是小假 期待与你的下一次相遇 ~
299 43