后缀数组 (0x14 hash)

简介: 笔记

后缀数组


题意

后缀数组 (SA) 是一种重要的数据结构,通常使用倍增或者 DC3 算法实现,这超出了我们的讨论范围。


在本题中,我们希望使用快排、Hash 与二分实现一个简单的O(nlog2n) 的后缀数组求法。


详细地说,给定一个长度为 n 的字符串 S(下标 0∼n−1),我们可以用整数 k(0≤k<n) 表示字符串 S 的后缀 S(k∼n−1)。


把字符串 S 的所有后缀按照字典序排列,排名为 i 的后缀记为 SA[i]。


额外地,我们考虑排名为 i 的后缀与排名为 i−1 的后缀,把二者的最长公共前缀的长度记为 Height[i]。


我们的任务就是求出 SA 与 Height 这两个数组。


思路

先求 SA 数组53.png

代码

#include<bits/stdc++.h>
// #define int long long
#define INF 0x3f3f3f3f
#define mod 1000000007
#define MOD 998244353
#define rep(i, st, ed) for (int (i) = (st); (i) <= (ed);++(i))
#define pre(i, ed, st) for (int (i) = (ed); (i) >= (st);--(i))
using namespace std;
typedef long long LL;
typedef unsigned long long ULL;
typedef pair<int, int> PII;
template<typename T> inline T gcd(T a, T b) { return b ? gcd(b, a % b) : a; }
template<typename T> inline T lowbit(T x) { return x & -x; }
const int N = 3e5 + 10;
const int base = 131;
ULL h[N];
ULL p[N];
int sa[N];
char s[N];
int n;
ULL get_hash(int l, int r) {
  return h[r] - h[l - 1] * p[r - l + 1];
}
int get_max_common_prefix(int a, int b) {
  int l = 0, r = min(n - a + 1, n - b + 1);
  while (l < r) { // 二分长度
    int mid = l + r + 1 >> 1;
    if (get_hash(a, a + mid - 1) != get_hash(b, b + mid - 1))r = mid - 1;
    else l = mid;
  }
  return l;
}
bool cmp(int a, int b) { // 按字典序排序
  int l = get_max_common_prefix(a, b);
  int av = a + l > n ? INT_MIN : s[a + l];
  int bv = b + l > n ? INT_MIN : s[b + l];
  return av < bv;
}
void solve() {
  scanf("%s", s + 1);
  n = strlen(s + 1);
  p[0] = 1;
  for (int i = 1; i <= n; ++i) {
    p[i] = p[i - 1] * base;
    h[i] = h[i - 1] * base + s[i];
    sa[i] = i;
  }
  sort(sa + 1, sa + 1 + n, cmp);
  for (int i = 1; i <= n; ++i)printf("%d ", sa[i] - 1);
  printf("\n");
  for (int i = 1; i <= n; ++i) {
    if (i == 1)printf("0 ");
    else printf("%d ", get_max_common_prefix(sa[i], sa[i - 1]));
  }
}
signed main() {
  // int t; cin >> t;
  // while (t--)
  solve();
  return 0;
}


目录
相关文章
|
6月前
|
算法
后缀数组算法介绍
后缀数组学习
46 2
|
8月前
|
存储 C++ 容器
【C++】哈希 Hash(闭散列、开散列介绍及其实现)(上)
【C++】哈希 Hash(闭散列、开散列介绍及其实现)(上)
|
8月前
|
存储 Java Serverless
【C++】哈希 Hash(闭散列、开散列介绍及其实现)(下)
【C++】哈希 Hash(闭散列、开散列介绍及其实现)(下)
|
8月前
|
机器学习/深度学习 算法 测试技术
【字符串】【分类讨论】【KMP】1163. 按字典序排在最后的子串
【字符串】【分类讨论】【KMP】1163. 按字典序排在最后的子串
|
存储 算法 Java
基数排序详解(Radix sort)
基数排序详解(Radix sort)
131 0
|
搜索推荐 JavaScript 前端开发
基数排序(Radix Sort)
基数排序(Radix Sort)是一种非比较排序算法,它根据数字的每一位(从最低位到最高位)进行排序,具体来说,它是将所有待排序的数字统一为同样的数位长度,然后从最低位开始,依次对每个数位进行排序,最后将所有数字按照数位从低到高的顺序合并成一个有序数组。
95 6
|
8月前
|
算法
【算法总结】字符串哈希
【算法总结】字符串哈希
134 0
字符串哈希
原题链接841. 字符串哈希 - AcWing题库 视频讲解AcWing 841. 字符串哈希 - AcWing
83 0
哈希——18. 四数之和
本专栏按照数组—链表—哈希—字符串—栈与队列—二叉树—回溯—贪心—动态规划—单调栈的顺序刷题,采用代码随想录所给的刷题顺序,一个正确的刷题顺序对算法学习是非常重要的,希望对大家有帮助