【C++】unordered_map(set)

简介: C++中的`unordered`容器(如`std::unordered_set`、`std::unordered_map`)基于哈希表实现,提供高效的查找、插入和删除操作。哈希表通过哈希函数将元素映射到特定的“桶”中,每个桶可存储一个或多个元素,以处理哈希冲突。主要组成部分包括哈希表、哈希函数、冲突处理机制、负载因子和再散列,以及迭代器。哈希函数用于计算元素的哈希值,冲突通过开链法解决,负载因子控制哈希表的扩展。迭代器支持遍历容器中的元素。`unordered_map`和`unordered_set`的插入、查找和删除操作在理想情况下时间复杂度为O(1),但在冲突较多时可能退化为O(n)。

前言

C++中的unordered容器(例如std::unordered_set、std::unordered_map等)底层是基于哈希表(Hash Table)实现的。哈希表是一种通过哈希函数将元素映射到特定“桶(bucket)”的容器,提供快速的查找、插入和删除操作。

unordered系列的实现

哈希表的基本结构

哈希表的核心思想是将元素的值(或键)通过哈希函数(Hash Function)映射到哈希表中的某个桶(bucket)。每个桶通常是一个链表或其他数据结构,用来处理冲突。当不同的元素通过哈希函数得到相同的哈希值时,会出现哈希冲突(Hash Collision),冲突的元素会被存储在同一个桶内。

哈希表的关键组成部分有:

  1. 哈希表(Hash Table)
    unordered_map 和 unordered_set 底层使用哈希表来存储元素。
    哈希表的核心是一个数组,这个数组的每个位置被称为一个“桶”(bucket)。
    每个桶可以存储一个或多个元素,这些元素的键通过哈希函数映射到该桶中。
  2. 哈希函数(Hash Function)
    哈希函数负责将键值映射到哈希表中的某个桶。
    C++ 标准库允许用户提供自定义的哈希函数,默认情况下使用 std::hash 提供的哈希函数。
    哈希函数的好坏直接影响到哈希表的性能:一个好的哈希函数应当均匀分布键值,减少冲突。
  3. 冲突处理(Collision Handling)
    哈希冲突发生在不同的键被映射到同一个桶时。
    C++ 的 unordered_map 和 unordered_set 使用 开链法(Chaining) 处理冲突。
    在开链法中,每个桶内部实际上是一个链表或类似的结构,用于存储多个哈希冲突的元素。
    这意味着即使有冲突发生,元素也不会丢失,而是通过链表来管理这些冲突的元素。
  4. 负载因子和扩展(Load Factor and Rehashing)
    负载因子(Load Factor)定义为元素数量与桶数量的比值。当负载因子超过一个预设的阈值时,哈希表会进行扩展(即再散列 rehashing)。
    扩展通常意味着分配一个更大的桶数组,并重新计算每个元素的哈希值,然后将它们放入新的桶中。
    再散列的过程可以确保在负载因子较高时,哈希表的操作仍然是高效的。
  5. 迭代顺序
    因为哈希表的存储结构无序,unordered_map 和 unordered_set 的迭代顺序是未定义的。
    迭代顺序依赖于哈希函数和元素的插入顺序,以及哈希表的大小和当前负载因子。
  6. 时间复杂度
    在理想情况下(即哈希冲突少),unordered_map 和 unordered_set 的插入、查找、删除操作的时间复杂度是 O(1)。
    但在最坏情况下(大量冲突),这些操作的时间复杂度可能退化为 O(n)。

存储结构

  • 类似于链表,在顺序表中存储一个一个节点。
template<class T>
struct HashNode
{
   
    T _data;
    HashNode<T>* _next;

    HashNode(const T& data)
        :_data(data)
        ,_next(nullptr)
    {
   }
};
  • table:使用 std::vector 存储多个链表,每个链表代表一个桶,链表中的元素是映射到这个桶的所有元素。
  • 记录_n进行负载因子的储存
  • class KeyofT是作为仿函数是为了配合K型和KV结构适应的
template<class K,class T,class KeyofT,class HashFunc = defaultHashfunc<K>>
class HashTable
{
   
    public:
    ...
    private:
    vector<Node*> _table;
    size_t _n = 0;
};

哈希函数

  1. 在函数的内容的不确定的时候进行返回。
  2. 针对string字符串的直接进行特模板化。
  3. 针对26字母有不同的组合,要进行字符串的哈希化处理,目的是针对哈希冲突 (本次采用 BKDR算法)参考:字符串哈希算法
template<class T>
struct defaultHashfunc
{
   
    size_t operator()(const T& data)
    {
   
        return (size_t)data;
    }
};
//模板特化
template<>
struct defaultHashfunc<string>
{
   
    size_t operator()(const string& str)
    {
   
        size_t hash = 0;
        for (auto& ch : str)
        {
   
            hash *= 131;

            hash += ch;
        }
        return hash;
    }
};

unordered插入操作

  1. 哈希计算
    当你插入一个元素(比如在unordered_map中插入一个键值对),首先会调用哈希函数对键(key)进行哈希计算。这个哈希函数返回一个哈希值(通常是一个无符号整数类型,如std::size_t)。
    这个哈希值会被用来确定元素应该存储在哪个桶(bucket)中。桶的数量通常是哈希表当前容量的一个因子。

  2. 桶的选择
    哈希表根据哈希值和桶的数量来确定目标桶的位置。通常这是通过取模运算来完成的,即 hf(kot(data)) % _table.size()
    在这个位置上,哈希表要检查这个桶是否已经存在元素,如果存在,则进行冲突处理。

  3. 冲突处理
    如果目标桶已经有其他元素(即发生了哈希冲突),unordered_mapunordered_set 通过 开链法(chaining) 进行处理。
    开链法意味着每个桶实际上包含一个链表或链表的类似结构。新元素将被添加到这个链表中。
  4. 元素存储
    如果目标桶为空,则直接将新元素存储在该桶中。
    如果目标桶不为空(发生冲突),则将元素追加到该桶的链表中。
    unordered_map 中,如果插入的键已经存在,则插入操作不会改变哈希表,而是更新该键对应的值。
  5. 负载因子与再散列(Rehashing)
    每次插入操作都会检查哈希表的负载因子(即元素数量与桶数量的比值)。
    如果负载因子超过了哈希表的最大负载因子(max_load_factor()),哈希表会自动扩展,增加桶的数量并重新分配所有元素到新的桶中。这就是所谓的再散列(rehashing)
    再散列过程中,所有元素都将被重新哈希和插入新的桶中,这样可以保证哈希表的高效性
pair<iterator,bool> insert(const T& data)
{
   
    KeyofT kot;
    HashFunc hf;

    iterator it = Find(kot(data));
    if (it != end())
    {
   
        return make_pair(it,false);
    }

    if (_n == _table.size())
    {
   
        size_t newsize = _table.size() * 2;
        vector<Node*> newtable;
        newtable.resize(newsize,nullptr);
        for (int i = 0; i < _table.size() ;i++)
        {
   
            HashFunc hf;
            size_t hashi = 0;

            Node* cur = _table[i];
            while (cur)
            {
   
                Node* next = cur->_next;
                hashi = hf(kot(cur->_data)) % newtable.size();
                cur->_next = newtable[hashi];
                newtable[hashi] = cur;
                cur = next;
            }
            _table[i] = nullptr;
        }
        _table.swap(newtable);

    }
    size_t hashi = hf(kot(data)) % _table.size();
    Node* newnode = new Node(data);
    newnode->_next = _table[hashi];
    _table[hashi] = newnode;
    ++_n;
    return make_pair(iterator(newnode,this),true);
}

unordered删除操作

删除操作的底层流程

  1. 哈希计算
    对于基于键删除的操作(如 erase(const key_type& k)),首先会对给定的键 k 进行哈希计算,计算出哈希值。
    根据哈希值确定该键可能存储在哪个桶中。

  2. 查找元素
    哈希表在确定了桶的位置后,会在对应的桶(链表)中查找目标元素。
    如果找到匹配的元素,哈希表会进行删除操作;如果未找到,erase 返回 0,表示没有元素被删除。

  3. 删除元素
    删除元素时,需要从桶的链表中移除该元素,并处理相应的链表指针调整,以确保链表结构的完整性。
    如果该桶中的链表只有一个元素,删除该元素后,该桶变为空。
    如果链表中有多个元素,删除操作只影响指定元素,并将链表的前后元素连接起来。
bool Erase(const K& key)
{
   
    HashFunc hf;
    KeyofT kot;
    size_t hashi = hf(kot(key)) % _table.szie();
    Node* cur = _table[hashi];
    Node* prev = nullptr;
    while (cur)
    {
   
        if (kot(cur->_data) == key)
        {
   
            if (prev == nullptr)
            {
   
                _table[hashi] = cur->_next;
            }
            else
            {
   
                prev->_next = cur->_next;
            }

            delete cur;
            --_n;
            return true;
        }
        prev = cur;
        cur = cur->_next;
    }
    return false;
}

unordered查找操作

  1. 桶的选择
    根据哈希值确定桶的位置(索引),通常通过哈希值对桶的数量取模来实现,即 bucket_index = hash_value % bucket_count。
    定位到桶之后,开始在该桶的链表中查找目标元素。
  2. 遍历桶的链表
    如果目标桶不为空,查找操作会遍历桶中的链表,比较每个元素的键与目标键 k 是否相同。
    如果找到匹配的键,find() 方法返回指向该元素的迭代器。如果未找到,返回 end()。
iterator Find(const K& key)
{
   
    HashFunc hf;
    KeyofT kot;
    size_t hashi = hf(key) % _table.size();
    Node* cur = _table[hashi];
    while (cur)
    {
   
        if (kot(cur->_data) == key)
        {
   
            return iterator(cur,this);
        }
        cur = cur->_next;
    }
    return iterator(nullptr, this);
}

unordered迭代器

迭代器的结构

  • 迭代器的构建需要_node的节点和哈希表的指针。
  • 节点的指针是进行返回当前节点的值。
template<class K,class T,class Ptr,class Ref,class KeyofT, class HashFunc>
struct HashIterator
{
   
    typedef HashNode<T> Node;
    typedef HashIterator<K, T, Ptr, Ref ,KeyofT, HashFunc> Self;
    typedef HashIterator<K, T, T*, T&, KeyofT, HashFunc> iterator;

    Node* _node;
    const HashTable<K, T, KeyofT, HashFunc>* _pht;

};

迭代器的特点

  • 在迭代器内需要写普通迭代器的拷贝构造(const迭代器的构造函数)
  • 在迭代器实例化不同的类型,这个函数作用是不一样的。
  • 这个的目的是为了解决set的insert返回值的需求,map返回pair<iterator,bool>,由于利用同于一个适配器,需要适应不同的容器。
HashIterator(const iterator& it)
    :_node(it._node)
    ,_pht(it._pht)
{
   

迭代器自增

  • if判断当前桶的是否还存在剩余节点,存在返回下一个,不存在调整至下一个不为空的桶。
Self& operator++()
{
   
    if (_node->_next)
    {
   
        _node = _node->_next;
    }
    else
    {
   
        KeyofT kot;
        HashFunc hf;
        size_t hashi = hf(kot(_node->_data)) % _pht->_table.size();
        ++hashi;
        while (hashi < _pht->_table.size())
        {
   
            if (_pht->_table[hashi])
            {
   
                _node = _pht->_table[hashi];
                return *this;
            }
            else
            {
   
                ++hashi;
            }
        }
        _node = nullptr;
    }
    return *this;
}

迭代器其余结构

  • 重载 * 、重载 -> 、重载== !=
Ref operator*()
{
   
    return _node->_data;
}

Ptr operator->()
{
   
    return &_node->_data;
}
bool operator!=(const Self& s)
{
   
    return _node != s._node;
}
bool operator==(const Self& s)
{
   
    return _node->_data == s._node;
}

迭代器的封装

  • begin()返回第一个储存数据的节点
  • end()返回空指针
iterator begin()
{
    
    for (int i = 0; i < _table.size(); i++)
    {
   
        Node* cur = _table[i];
        while (cur)
        {
   
            if (cur)

            {
   
                return iterator(cur, this);
            }
        }
    }
    return iterator(nullptr, this);
}
iterator end()
{
   
    return iterator(nullptr, this);
}

map和set的封装

map的set的仿函数

  • 仿函数传过去是在实例化的时候为了取到不同的结构下的值
struct mapofT
{
   
    const K& operator()(const pair<K, T>& kv)
    {
   
        return kv.first;
    }
};

struct setofT
{
   
    const K& operator()(const K& key)
    {
   
        return key;
    }
};

map的set的插入

  • 由于map储存键值对,返回pair,set为了适应结构返回也是pair
  • set的返回进行再次接受,哈希桶底层利用iterator,在这里返回const需要进行构造
pair<iterator,bool> insert(const pair<K, T>& kv)
{
   
    return _ht.insert(kv);
}

pair<const_iterator,bool> insert(const K& data)
{
   
    pair<typename HashTable<K, K, setofT>::const_iterator, bool> ret = _ht.insert(data);
    return make_pair(ret.first, ret.second);
}

map的operator[]

  • 采用insert进行返回,存在key返回当前迭代器,不存在插入这个值。
  • 整体这个函数放回该值的pair的second。
T& operator[](const K& key)
{
   
    pair<iterator, bool> ret = insert(make_pair(key, T()));
    return ret.first->second;
}
目录
相关文章
|
14天前
|
存储 人工智能 弹性计算
阿里云弹性计算_加速计算专场精华概览 | 2024云栖大会回顾
2024年9月19-21日,2024云栖大会在杭州云栖小镇举行,阿里云智能集团资深技术专家、异构计算产品技术负责人王超等多位产品、技术专家,共同带来了题为《AI Infra的前沿技术与应用实践》的专场session。本次专场重点介绍了阿里云AI Infra 产品架构与技术能力,及用户如何使用阿里云灵骏产品进行AI大模型开发、训练和应用。围绕当下大模型训练和推理的技术难点,专家们分享了如何在阿里云上实现稳定、高效、经济的大模型训练,并通过多个客户案例展示了云上大模型训练的显著优势。
|
18天前
|
存储 人工智能 调度
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
9天前
|
并行计算 前端开发 物联网
全网首发!真·从0到1!万字长文带你入门Qwen2.5-Coder——介绍、体验、本地部署及简单微调
2024年11月12日,阿里云通义大模型团队正式开源通义千问代码模型全系列,包括6款Qwen2.5-Coder模型,每个规模包含Base和Instruct两个版本。其中32B尺寸的旗舰代码模型在多项基准评测中取得开源最佳成绩,成为全球最强开源代码模型,多项关键能力超越GPT-4o。Qwen2.5-Coder具备强大、多样和实用等优点,通过持续训练,结合源代码、文本代码混合数据及合成数据,显著提升了代码生成、推理和修复等核心任务的性能。此外,该模型还支持多种编程语言,并在人类偏好对齐方面表现出色。本文为周周的奇妙编程原创,阿里云社区首发,未经同意不得转载。
|
14天前
|
人工智能 运维 双11
2024阿里云双十一云资源购买指南(纯客观,无广)
2024年双十一,阿里云推出多项重磅优惠,特别针对新迁入云的企业和初创公司提供丰厚补贴。其中,36元一年的轻量应用服务器、1.95元/小时的16核60GB A10卡以及1元购域名等产品尤为值得关注。这些产品不仅价格亲民,还提供了丰富的功能和服务,非常适合个人开发者、学生及中小企业快速上手和部署应用。
|
21天前
|
缓存 监控 Linux
Python 实时获取Linux服务器信息
Python 实时获取Linux服务器信息
|
4天前
|
云安全 存储 弹性计算
|
6天前
|
云安全 人工智能 自然语言处理
|
9天前
|
人工智能 自然语言处理 前端开发
用通义灵码,从 0 开始打造一个完整APP,无需编程经验就可以完成
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。本教程完全免费,而且为大家准备了 100 个降噪蓝牙耳机,送给前 100 个完成的粉丝。获奖的方式非常简单,只要你跟着教程完成第一课的内容就能获得。
|
25天前
|
自然语言处理 数据可视化 前端开发
从数据提取到管理:合合信息的智能文档处理全方位解析【合合信息智能文档处理百宝箱】
合合信息的智能文档处理“百宝箱”涵盖文档解析、向量化模型、测评工具等,解决了复杂文档解析、大模型问答幻觉、文档解析效果评估、知识库搭建、多语言文档翻译等问题。通过可视化解析工具 TextIn ParseX、向量化模型 acge-embedding 和文档解析测评工具 markdown_tester,百宝箱提升了文档处理的效率和精确度,适用于多种文档格式和语言环境,助力企业实现高效的信息管理和业务支持。
3984 5
从数据提取到管理:合合信息的智能文档处理全方位解析【合合信息智能文档处理百宝箱】
|
4天前
|
人工智能 C++ iOS开发
ollama + qwen2.5-coder + VS Code + Continue 实现本地AI 辅助写代码
本文介绍在Apple M4 MacOS环境下搭建Ollama和qwen2.5-coder模型的过程。首先通过官网或Brew安装Ollama,然后下载qwen2.5-coder模型,可通过终端命令`ollama run qwen2.5-coder`启动模型进行测试。最后,在VS Code中安装Continue插件,并配置qwen2.5-coder模型用于代码开发辅助。
298 4