数据结构 - Tire 树

简介: Tire 树 又称单词查找树,是一种树形结构,是一种哈希树的变种。Tire 树是一种能够快速存储和查找一组字符串集合的数据结构,是以空间换时间,利用字符串的前缀来降低查询时间。

文章目录

一、Tire 树

1. Tire 树介绍

2. 优缺点及性质

3. 具体实现可见例题 Tire 字符串统计

二、Tire 树例题——Tire 字符串统计

具体实现

1. 实现过程

2. 代码注解

3. 实现代码

三、Tire 树例题——最大异或对

具体实现

0. 暴力做法

1. 实现思路

2. 实现代码


一、Tire 树

1. Tire 树介绍


  • Tire 树 又称单词查找树,是一种树形结构,是一种哈希树的变种。
  • Tire 树是一种能够快速存储和查找一组字符串集合的数据结构,是以空间换时间,利用字符串的前缀来降低查询时间。


与二叉树不同,Tire 树有 26 子节点对应 26 个字母,根节点不包含字符串,从根节点到某个节点,经过的字符连起来的字符串就是对应的字符串。当储存结束一个字符串后,尾节点会产生一个标记,表示当前字符串已经结束了。

典型应用:用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。


  • 如下图就是一棵由字符串 abcdef,abdef,aced,bcdf,bcfc,bcff,cdaa,组成的 Tire 树:

image.png


2. 优缺点及性质


  • 优点:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。
  • 缺点:空间复杂度比较大。


  • 优化:我们可以用链表来动态开辟空间,达到空间上利用率的最大化。
  • 性质


  • (1)根结点不包含字符,其他的每一个节点只包含一个字符。
  • (2)从根结点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串(假如某个节点为一个字符串的结尾,对其打个标记即可)。
  • (3)每个节点的所有子节点包含的字符都不相同。


3. 具体实现可见例题 Tire 字符串统计


二、Tire 树例题——Tire 字符串统计

题目描述

维护一个字符串集合,支持两种操作:

I x 向集合中插入一个字符串 x;

Q x 询问一个字符串在集合中出现了多少次。

共有 N 个操作,所有输入的字符串总长度不超过 1e5,字符串仅包含小写英文字母。


输入格式

第一行包含整数 N,表示操作数。

接下来 N 行,每行包含一个操作指令,指令为 I xQ x 中的一种。


输出格式

对于每个询问指令 Q x,都要输出一个整数作为结果,表示 x 在集合中出现的次数。

每个结果占一行。


数据范围

1 ≤ N ≤ 2∗1e4


输入样例

5

I abc

Q abc

Q ab

I ab

Q ab

输出样例

1

0

1


具体实现

1. 实现过程

  • Tire 树的插入和查询功能的实现。
  • (1) I x 向集合中插入一个字符串 x。
void insert(char str[])
{
  int p=0;
  for(int i=0;str[i];i++)   
  {
    int u=str[i]-'a';
    if(!son[p][u])
    {
      idx++;
      son[p][u]=idx;      
    }
    p=son[p][u];
  }
  cnt[p]++;
} 
  • (2)Q x 询问一个字符串在集合中出现了多少次。
int query(char str[])
{
  int p=0;
  for(int i=0;str[i];i++) 
  {
    int u=str[i]-'a';
    if(!son[p][u])
    {
      return 0;
    }
    else
    {
      p=son[p][u];
    }
  }
  return cnt[p];
}


2. 代码注解


int son[N][26]; 表示树当中每个点的所有子节点。

int cnt[N]; 表示以当前这个点结尾的单词有多少个。

int idx; 表示当前用到了哪个下标。这里需要注意:下标是 0 的点,既是根节点,又是空节点。

C++ 字符串结尾是 \0 ,因此 str[i] 可以判断字符串是否走到结尾。

int u=str[i]-‘a’; 将小写字母 a~z ,映射成数字 0~25。


3. 实现代码

#include <bits/stdc++.h>
using namespace std;
const int N=100010;
int son[N][26];  
int cnt[N]; 
char str[N];
int idx;  
void insert(char str[])
{
  int p=0;
  for(int i=0;str[i];i++)  
  {
    int u=str[i]-'a';
    if(!son[p][u])
    {
      idx++;
      son[p][u]=idx;
    }
    p=son[p][u];
  }
  cnt[p]++;
} 
int query(char str[])
{
  int p=0;
  for(int i=0;str[i];i++) 
  {
    int u=str[i]-'a';
    if(!son[p][u])
    {
      return 0;
    }
    p=son[p][u];
  }
  return cnt[p];
}
int main()
{
  int n;
  cin>>n;
  while(n--)
  {
    char op[2];
    scanf("%s%s",op,str);
    if(op[0]=='I')
    {
       insert(str);
    }
    else
    {
      cout<<query(str)<<endl;
    }
  }
  system("pause");
  return 0;
}



三、Tire 树例题——最大异或

题目描述


在给定的 N 个整数 A1,A2……AN 中选出两个进行 xor(异或)运算,得到的结果最大是多少?

输入格式

第一行输入一个整数 N。

第二行输入 N 个整数 A1~AN


输出格式

输出一个整数表示答案。

数据范围

1 ≤ N ≤ 1e5

0 ≤ Ai < 2的31次方


输入样例

3

1 2 3

输出样例

3


具体实现

0. 暴力做法


  • 暴力做法通俗易懂,两个 for 循环,相互枚举每一个值,异或,最后答案为其中的最大值。
  • 暴力做法虽然易做,但是会出现 超时 问题。


#include <bits/stdc++.h>
using namespace std;
const int N=100010;
int n;
int a[N];
int main()
{
  cin>>n;
  for(int i=0;i<n;i++)
  {
    cin>>a[i];
  }
  int res=0;
  for(int i=0;i<n;i++)
  {
    for(int j=0;j<n;j++)
    {
      res=max(res,a[i]^a[j]);
    }
  }
  cout<<res<<endl;
  system("pause"); 
  return 0;
}

1. 实现思路



  • 由异或操作的计算公式可知,我们只需要先遍历每一个数,然后根据遍历的数的对应二进制形式,选取一个尽可能二进制形式每一位都不同的数字,得到该数字的最大异或值,最后再选举最大的异或值。在得到每一个数字的最大亦或值的选取过程就是一个 Tire 数
  • 举例说明:


c46b307f93874ba59dd0b5177c444a2c.png

2. 实现代码

#include <bits/stdc++.h>
using namespace std;
const int N = 100010, M = 3100010;
int n;
int a[N], son[M][2], idx;
void insert(int x)
{
    int p = 0;
    for (int i = 30; i >= 0; i -- )
    {
        int &s = son[p][x >> i & 1];
        if (!s) 
        {
            idx ++;
            s = idx;
        }
        p = s;
    }
}
int search(int x)
{
    int p = 0, res = 0;
    for (int i = 30; i >= 0; i -- )
    {
        int s = x >> i & 1;
        if (son[p][!s])
        {
            res += 1 << i;
            p = son[p][!s];
        }
        else 
        {
            p = son[p][s];
        }
    }
    return res;
}
int main()
{
    cin >> n;
    for (int i = 0; i < n; i ++ )
    {
        cin >> a[i];
        insert(a[i]);
    }
    int res = 0;
    for (int i = 0; i < n; i ++ )
    {
        res = max(res, search(a[i]));
    }
    cout << res << endl;
    system("pause");
    return 0;
}





































相关文章
|
算法
数据结构之博弈树搜索(深度优先搜索)
本文介绍了使用深度优先搜索(DFS)算法在二叉树中执行遍历及构建链表的过程。首先定义了二叉树节点`TreeNode`和链表节点`ListNode`的结构体。通过递归函数`dfs`实现了二叉树的深度优先遍历,按预序(根、左、右)输出节点值。接着,通过`buildLinkedList`函数根据DFS遍历的顺序构建了一个单链表,展示了如何将树结构转换为线性结构。最后,讨论了此算法的优点,如实现简单和内存效率高,同时也指出了潜在的内存管理问题,并分析了算法的时间复杂度。
339 0
|
9月前
|
算法 Java
算法系列之数据结构-Huffman树
Huffman树(哈夫曼树)又称最优二叉树,是一种带权路径长度最短的二叉树,常用于信息传输、数据压缩等方面。它的构造基于字符出现的频率,通过将频率较低的字符组合在一起,最终形成一棵树。在Huffman树中,每个叶节点代表一个字符,而每个字符的编码则是从根节点到叶节点的路径所对应的二进制序列。
247 3
 算法系列之数据结构-Huffman树
|
9月前
|
存储 自然语言处理 数据库
【数据结构进阶】AVL树深度剖析 + 实现(附源码)
在深入探讨了AVL树的原理和实现后,我们不难发现,这种数据结构不仅优雅地解决了传统二叉搜索树可能面临的性能退化问题,还通过其独特的平衡机制,确保了在任何情况下都能提供稳定且高效的查找、插入和删除操作。
706 19
|
11月前
|
存储 C++
【C++数据结构——树】哈夫曼树(头歌实践教学平台习题) 【合集】
【数据结构——树】哈夫曼树(头歌实践教学平台习题)【合集】目录 任务描述 相关知识 测试说明 我的通关代码: 测试结果:任务描述 本关任务:编写一个程序构建哈夫曼树和生成哈夫曼编码。 相关知识 为了完成本关任务,你需要掌握: 1.如何构建哈夫曼树, 2.如何生成哈夫曼编码。 测试说明 平台会对你编写的代码进行测试: 测试输入: 1192677541518462450242195190181174157138124123 (用户分别输入所列单词的频度) 预
383 14
【C++数据结构——树】哈夫曼树(头歌实践教学平台习题) 【合集】
|
11月前
|
Java C++
【C++数据结构——树】二叉树的基本运算(头歌实践教学平台习题)【合集】
本关任务:编写一个程序实现二叉树的基本运算。​ 相关知识 创建二叉树 销毁二叉树 查找结点 求二叉树的高度 输出二叉树 //二叉树节点结构体定义 structTreeNode{ intval; TreeNode*left; TreeNode*right; TreeNode(intx):val(x),left(NULL),right(NULL){} }; 创建二叉树 //创建二叉树函数(简单示例,手动构建) TreeNode*create
322 12
|
存储 算法 搜索推荐
探索常见数据结构:数组、链表、栈、队列、树和图
探索常见数据结构:数组、链表、栈、队列、树和图
446 64
|
11月前
|
C++
【C++数据结构——树】二叉树的性质(头歌实践教学平台习题)【合集】
本文档介绍了如何根据二叉树的括号表示串创建二叉树,并计算其结点个数、叶子结点个数、某结点的层次和二叉树的宽度。主要内容包括: 1. **定义二叉树节点结构体**:定义了包含节点值、左子节点指针和右子节点指针的结构体。 2. **实现构建二叉树的函数**:通过解析括号表示串,递归地构建二叉树的各个节点及其子树。 3. **使用示例**:展示了如何调用 `buildTree` 函数构建二叉树并进行简单验证。 4. **计算二叉树属性**: - 计算二叉树节点个数。 - 计算二叉树叶子节点个数。 - 计算某节点的层次。 - 计算二叉树的宽度。 最后,提供了测试说明及通关代
192 10
|
11月前
|
存储 算法 测试技术
【C++数据结构——树】二叉树的遍历算法(头歌教学实验平台习题) 【合集】
本任务旨在实现二叉树的遍历,包括先序、中序、后序和层次遍历。首先介绍了二叉树的基本概念与结构定义,并通过C++代码示例展示了如何定义二叉树节点及构建二叉树。接着详细讲解了四种遍历方法的递归实现逻辑,以及层次遍历中队列的应用。最后提供了测试用例和预期输出,确保代码正确性。通过这些内容,帮助读者理解并掌握二叉树遍历的核心思想与实现技巧。
484 3
|
存储 缓存 算法
在C语言中,数据结构是构建高效程序的基石。本文探讨了数组、链表、栈、队列、树和图等常见数据结构的特点、应用及实现方式
在C语言中,数据结构是构建高效程序的基石。本文探讨了数组、链表、栈、队列、树和图等常见数据结构的特点、应用及实现方式,强调了合理选择数据结构的重要性,并通过案例分析展示了其在实际项目中的应用,旨在帮助读者提升编程能力。
355 5
|
存储 搜索推荐 算法
【数据结构】树型结构详解 + 堆的实现(c语言)(附源码)
本文介绍了树和二叉树的基本概念及结构,重点讲解了堆这一重要的数据结构。堆是一种特殊的完全二叉树,常用于实现优先队列和高效的排序算法(如堆排序)。文章详细描述了堆的性质、存储方式及其实现方法,包括插入、删除和取堆顶数据等操作的具体实现。通过这些内容,读者可以全面了解堆的原理和应用。
608 16

热门文章

最新文章