用C++实现一个哈希桶并封装实现 unordered_map 和 unordered_set

简介: 用C++实现一个哈希桶并封装实现 unordered_map 和 unordered_set



哈希桶,又叫开散列法。开散列法又叫链地址法(开链法),首先对关键码集合用散列函数计算散列地址,具有相同地址的关键码归于同一子集合,每一个子集合称为一个桶,各个桶中的元素通过一个单链表链接起来,各链表的头结点存储在哈希表中。具体如下图例:

哈希桶的实现原理

首先,思路是用 vector 来作为基础容器,里面存储的数据类型是一个结构器结点类型,结点中存储模板类型的数据和 _next 指针。当要插入数据的时候,先根据这个数据利用除留余数法计算出它的 hashi,然后再头插到对应 vector 的位置。

一般设置哈希桶的负载因子为1,当哈希桶的负载因子恰好等于 1 的时候,就要进行扩容。哈希表的扩容必须要异地扩容并且将原哈希桶中的数据再次挨个插入到新的哈希桶中,最后将这个哈希桶的数据与原来的哈希桶交换。当然,析构函数也要自己来写,因为必须将所有结点挨个释放!

哈希表的查找。哈希表的查找效率是非常高的,几乎接近于 O(1)。先计算出要查找数据的 hashi,再根据以 hashi 为头结点的链表往下查找与之对应的数据,并返回找到位置的指针。如果找不到,就返回空指针。

哈希表的删除。 哈希表的删除也是查找的那一套思路,但需要记录一个prev指针,因为需要对prev指针和 next 指针进行链接。

封装 unordered_map 和 unordered_set

说实话这个封装,真是让人太头大了。

我就在这里介绍几个比较容易出错的点。

前置声明,可以解决相互依赖的问题,当定义在源文件靠上位置的类想使用靠下位置的类时,而编译器又只能向上,所以要在靠上位置的类前面声明一下。例如在迭代器类中想使用哈希表,就需要提前声明一下。

格式就是上图中写的:

模板参数列表

class 类名

一个类 A 想访问另一个类 B 的私有,需要在类 B 中友元声明 类 A,且友元声明的位置可以在任意位置(public private protected),这样,类 A 中就可以访问类 B 的私有了!

代码实现

(里面一些需要注意的点都在代码中注释标注)

HashTable.h

#pragma once
#include <iostream>
#include <vector>
#include <string>
using namespace std;
namespace Hash_backet
{
  template<class T>
  struct HashNode
  {
    HashNode(const T& data)
      :_next(nullptr)
      , _data(data)
    {}
    HashNode<T>* _next;
    T _data;
  };
  template<class K>
  struct HashOfi
  {
    size_t operator()(const K& key)
    {
      return (size_t)key;
    }
  };
  template<>
  struct HashOfi<string>
  {
    size_t operator()(const string& key)
    {
      size_t hashi = 0;
      for (size_t i = 0; i < key.size(); i++)
      {
        hashi *= 31;
        hashi += key[i];
      }
      return hashi;
    }
  };
  template<class K, class T, class KeyOfT, class Hash>
  class HashTable;
  template<class K, class T, class KeyOFT, class Hash, class Ptr, class Ref>
  class __HashIterator
  {
    template<class K, class Hash>
    friend class unordered_set;
    template<class K, class T, class Hash>
    friend class unordered_map;
    template<class K, class T, class KeyOfT, class Hash>
    friend class HashTable;
    typedef __HashIterator<K, T, KeyOFT, Hash, Ptr, Ref> self;
    typedef HashNode<T> Node; 
  public:
    __HashIterator(Node* node, HashTable<K, T, KeyOFT, Hash>* php)
      :_node(node)
      ,_php(php)
    {}
    __HashIterator(Node* node, const HashTable<K, T, KeyOFT, Hash>* php)
      :_node(node)
      , _php(php)
    {}
    Hash ky;
    KeyOFT kt;
    const HashTable<K, T, KeyOFT, Hash>* _php;
    self& operator++()
    {
      if (_node->_next)
      {
        _node = _node->_next;
      }
      else
      {
        size_t hashi = ky(kt(_node->_data)) % _php->_tables.size();
        ++hashi;
        while (hashi < _php->_tables.size())
        {
          if (_php->_tables[hashi])
          {
            _node = _php->_tables[hashi];
            break;
          }
          hashi++;
        }
        if (hashi == _php->_tables.size())
        {
          _node = nullptr;
        }
      }
      return *this;
    }
    bool operator!=(const self &it)
    {
      return _node != it._node;
    }
    Ref operator*()
    {
      return _node->_data;
    }
    Ptr operator->()
    {
      return &_node->_data;
    }
  private:
    Node* _node;
  };
 
  template<class K, class T, class KeyOfT, class Hash>
  class HashTable
  {
    typedef HashNode<T> Node;
  public:
    template<class K, class T, class KeyOFT, class Hash, class Ptr, class Ref>
    friend class __HashIterator; // 后面要使用 __Iterator 的私有,因此要在类内友元声明
    typedef __HashIterator<K, T, KeyOfT, Hash, T*, T&> iterator;
    typedef __HashIterator<K, T, KeyOfT, Hash, const T*, const T&> const_iterator;
    KeyOfT kt;
    Hash ky;
    HashTable()
    {
      _tables.resize(10);
    }
    iterator begin()
    {
      for (size_t i = 0; i < _tables.size(); i++)
      {
        Node* cur = _tables[i];
        if (cur)
        {
          return iterator(cur, this);
        }
      }
      return end();
    }
    iterator end()
    {
      return iterator(nullptr, this);
    }
    const_iterator begin() const
    {
      for (size_t i = 0; i < _tables.size(); i++)
      {
        Node* cur = _tables[i];
        if (cur)
        {
          return const_iterator(cur, this);
        }
      }
      return end();
    }
    const_iterator end() const
    {
      return const_iterator(nullptr, this);
    }
    iterator Find(const K& key)
    {
      size_t hashi = ky(key) % _tables.size();
      Node* cur = _tables[hashi];
      while (cur)
      {
        if (kt(cur->_data) == key)
        {
          return iterator(cur,this);
        }
        cur = cur->_next;
      }
      return iterator(nullptr, this);
    }
    pair<iterator, bool> Insert(const T& data)
    {
      if (Find(kt(data))._node)  //要使用_node 需要在前面进行友元声明
      {
        // 有元素,不允许插入
        return make_pair(Find(kt(data)),false);
      }
      if (_n == _tables.size())
      {
        // 扩容,异地扩容,直接将结点挨个弄下去
        HashTable<K, T, KeyOfT, Hash> newht;
        size_t newsize = 2 * _tables.size();
        newht._tables.resize(newsize);
        for (size_t i = 0; i < _tables.size(); i++)
        {
          if (_tables[i]) // 顺序表元素数组结点不为空
          {
            // 将这个结点的结点全部拿下来,链接到新结点
            Node* cur = _tables[i];
            while (cur)
            {
              newht.Insert(cur->_data);
              cur = cur->_next;
            }
          }
        }
        _tables.swap(newht._tables);
      }
      // 计算 hashi
      size_t hashi = ky(kt(data)) % _tables.size();
      // 头插
      Node* newnode = new Node(data);
      newnode->_next = _tables[hashi];
      _tables[hashi] = newnode;
      _n++;
      return make_pair(iterator(_tables[hashi], this),true);
    }
    bool Erase(const K& key)
    {
      size_t hashi = ky(key) % _tables.size();
      Node* cur = _tables[hashi];
      if (cur)
      {
        Node* prev = nullptr;
        while (cur)
        {
          if (kt(cur->_data) == key)
          {
            if (cur == _tables[hashi])
            {
              _tables[hashi] = cur->_next;
            }
            else
            {
              Node* next = cur->_next;
              prev->_next = next;
            }
            delete cur;
            break;
          }
          prev = cur;
          cur = cur->_next;
        }
        return true;
      }
      else
      {
        return false;
      }
    }
    ~HashTable()
    {
      for (size_t i = 0; i < _tables.size(); i++)
      {
        Node* cur = _tables[i];
        if (cur)
        {
          Node* next = cur->_next;
          delete cur;
          cur = next;
        }
      }
    }
  private:
    vector<Node*> _tables;
    size_t _n = 0;
  };
}

MyUnorderedMap.h

#pragma once
#include "HashTable.h"
namespace Hash_backet
{ 
  template<class K, class T, class Hash = HashOfi<K>>
  class unordered_map
  {
  public:
    struct UnMapKeyOfT
    {
      const K& operator()(const pair<K, T>& kv)
      {
        return kv.first;
      }
    };
    // 通过类域去访问HashTable 里面的 iterator,编译器其实是不能区分到底是 静态成员变量 还是 内嵌类型 的
    // 前面加一个 typename,就相当于一个给编译器的声明,这是一个内嵌类型(保证编译的时候不会报错),等到实例化的时候,再找具体的类来替换
    typedef typename Hash_backet::HashTable<K, pair<const K, T>, UnMapKeyOfT, Hash>::iterator iterator; 
    typedef typename Hash_backet::HashTable<K, pair<const K, T>, UnMapKeyOfT, Hash>::const_iterator const_iterator;
    pair<iterator, bool> insert(const pair<K, T>& kv)
    {
      return _ht.Insert(kv);
    }
    T& operator[](const K& key)
    {
      return (_ht.insert(make_pair(key, T()))).first->second; // -> 可以得到 _data 的引用,相当于 first._node.second
    }
    const T& operator[](const K& key) const
    {
      return (_ht.insert(make_pair(key, T()))).first->second; // -> 可以得到 _data 的引用,相当于 first._node.second
    }
    iterator find(const K& key)
    {
      return _ht.Find(key);
    }
    bool erase(const K& key)
    {
      return _ht.Erase(key);
    }
    iterator begin()
    {
      return _ht.begin();
    }
    iterator end()
    {
      return _ht.end();
    }
    const_iterator begin() const // const 放后面,表明调用这个成员函数的对象是用 const 来修饰的
    {
      return _ht.begin();
    }
    const_iterator end() const  // const 放后面,表明调用这个成员函数的对象是用 const 来修饰的
    {
      return _ht.end();
    }
  private:
    HashTable<K, pair<const K, T>, UnMapKeyOfT, Hash> _ht;
  };
}

MyUnorderedSet.h

#pragma once
#include "HashTable.h"
namespace Hash_backet
{
  template<class K, class Hash = HashOfi<K>>
  class unordered_set
  {
  public:
    struct UnSetKeyOfT
    {
      const K& operator()(const K& key)
      {
        return key;
      }
    };
    // 通过类域去访问HashTable 里面的 iterator,编译器其实是不能区分到底是 静态成员变量 还是 内嵌类型 的
    // 前面加一个 typename,就相当于一个给编译器的声明,这是一个内嵌类型(保证编译的时候不会报错),等到实例化的时候,再找具体的类来替换
    typedef typename Hash_backet::HashTable<K, K, UnSetKeyOfT, Hash>::const_iterator iterator;
    typedef typename Hash_backet::HashTable<K, K, UnSetKeyOfT, Hash>::const_iterator const_iterator;
    pair<iterator, bool> insert(const K& key)
    {
      auto ret = _ht.Insert(key);
      return pair<const_iterator, bool>(const_iterator(ret.first._node, ret.first._php), ret.second);
    }
    iterator find(const K& key)
    {
      auto ret = _ht.Find(key);
      return iterator(ret._node, ret._php);
    }
    bool erase(const K& key)
    {
      return _ht.Erase(key);
    }
    const_iterator begin() const // 无论是 iterator 还是 const_iterator 都调用 HashTable 中 const 类型的end() 和 begin()
    {
      return _ht.begin();
    }
    const_iterator end() const
    {
      return _ht.end();
    }
  private:
    HashTable<K, K, UnSetKeyOfT, Hash> _ht;
  };
}
相关文章
|
11天前
|
算法
你对Collection中Set、List、Map理解?
你对Collection中Set、List、Map理解?
46 18
你对Collection中Set、List、Map理解?
|
4天前
|
存储 缓存 安全
只会“有序无序”?面试官嫌弃的List、Set、Map回答!
小米,一位热衷于技术分享的程序员,通过与朋友小林的对话,详细解析了Java面试中常见的List、Set、Map三者之间的区别,不仅涵盖了它们的基本特性,还深入探讨了各自的实现原理及应用场景,帮助面试者更好地准备相关问题。
40 20
|
21天前
|
存储 C++ 容器
【C++】map、set基本用法
本文介绍了C++ STL中的`map`和`set`两种关联容器。`map`用于存储键值对,每个键唯一;而`set`存储唯一元素,不包含值。两者均基于红黑树实现,支持高效的查找、插入和删除操作。文中详细列举了它们的构造方法、迭代器、容量检查、元素修改等常用接口,并简要对比了`map`与`set`的主要差异。此外,还介绍了允许重复元素的`multiset`和`multimap`。
27 3
【C++】map、set基本用法
|
21天前
|
存储 算法 C++
【C++】unordered_map(set)
C++中的`unordered`容器(如`std::unordered_set`、`std::unordered_map`)基于哈希表实现,提供高效的查找、插入和删除操作。哈希表通过哈希函数将元素映射到特定的“桶”中,每个桶可存储一个或多个元素,以处理哈希冲突。主要组成部分包括哈希表、哈希函数、冲突处理机制、负载因子和再散列,以及迭代器。哈希函数用于计算元素的哈希值,冲突通过开链法解决,负载因子控制哈希表的扩展。迭代器支持遍历容器中的元素。`unordered_map`和`unordered_set`的插入、查找和删除操作在理想情况下时间复杂度为O(1),但在冲突较多时可能退化为O(n)。
18 5
|
21天前
|
存储 C++ 容器
【C++】set模拟实现
C++中的`set`是STL提供的一种关联容器,用于存储唯一元素并自动按特定顺序(默认升序)排序。其内部通过红黑树实现,保证了高效的插入、删除和查找操作,时间复杂度均为O(log n)。`set`支持迭代器遍历,提供了良好的数据访问接口。
28 3
|
2月前
|
存储 JavaScript 前端开发
Set、Map、WeakSet 和 WeakMap 的区别
在 JavaScript 中,Set 和 Map 用于存储唯一值和键值对,支持多种操作方法,如添加、删除和检查元素。WeakSet 和 WeakMap 则存储弱引用的对象,有助于防止内存泄漏,适合特定场景使用。
|
2月前
|
存储 缓存 Java
【用Java学习数据结构系列】HashMap与TreeMap的区别,以及Map与Set的关系
【用Java学习数据结构系列】HashMap与TreeMap的区别,以及Map与Set的关系
41 1
|
19天前
|
存储 编译器 C语言
【c++丨STL】string类的使用
本文介绍了C++中`string`类的基本概念及其主要接口。`string`类在C++标准库中扮演着重要角色,它提供了比C语言中字符串处理函数更丰富、安全和便捷的功能。文章详细讲解了`string`类的构造函数、赋值运算符、容量管理接口、元素访问及遍历方法、字符串修改操作、字符串运算接口、常量成员和非成员函数等内容。通过实例演示了如何使用这些接口进行字符串的创建、修改、查找和比较等操作,帮助读者更好地理解和掌握`string`类的应用。
29 2
|
25天前
|
存储 编译器 C++
【c++】类和对象(下)(取地址运算符重载、深究构造函数、类型转换、static修饰成员、友元、内部类、匿名对象)
本文介绍了C++中类和对象的高级特性,包括取地址运算符重载、构造函数的初始化列表、类型转换、static修饰成员、友元、内部类及匿名对象等内容。文章详细解释了每个概念的使用方法和注意事项,帮助读者深入了解C++面向对象编程的核心机制。
59 5
|
1月前
|
存储 编译器 C++
【c++】类和对象(中)(构造函数、析构函数、拷贝构造、赋值重载)
本文深入探讨了C++类的默认成员函数,包括构造函数、析构函数、拷贝构造函数和赋值重载。构造函数用于对象的初始化,析构函数用于对象销毁时的资源清理,拷贝构造函数用于对象的拷贝,赋值重载用于已存在对象的赋值。文章详细介绍了每个函数的特点、使用方法及注意事项,并提供了代码示例。这些默认成员函数确保了资源的正确管理和对象状态的维护。
65 4