题目描述
给定一个长度为n的字符串,再给定m个询问,每个询问包含四个整数l1,r1,l2,r2l1,r1,l2,r2,请你判断[l1,r1l1,r1]和[l2,r2l2,r2]这两个区间所包含的字符串子串是否完全相同。
字符串中只包含大小写英文字母和数字。
输入格式
第一行包含整数n和m,表示字符串长度和询问次数。
第二行包含一个长度为n的字符串,字符串中只包含大小写英文字母和数字。
接下来m行,每行包含四个整数l1,r1,l2,r2l1,r1,l2,r2,表示一次询问所涉及的两个区间。
注意,字符串的位置从1开始编号。
输出格式
对于每个询问输出一个结果,如果两个字符串子串完全相同则输出“Yes”,否则输出“No”。
每个结果占一行。
数据范围
1≤n,m≤1051≤n,m≤105
输入样例:
8 3
aabbaabb
1 3 5 7
1 3 6 8
1 2 1 2
输出样例:
Yes
No
Yes
算法1
(字符串哈希) O(n)+O(m)O(n)+O(m)
全称字符串前缀哈希法,把字符串变成一个p进制数字(哈希值),实现不同的字符串映射到不同的数字。
对形如 X1X2X3⋯Xn−1XnX1X2X3⋯Xn−1Xn 的字符串,采用字符的ascii 码乘上 P 的次方来计算哈希值。
映射公式 (X1×Pn−1+X2×Pn−2+⋯+Xn−1×P1+Xn×P0)modQ(X1×Pn−1+X2×Pn−2+⋯+Xn−1×P1+Xn×P0)modQ
注意点:
- 任意字符不可以映射成0,否则会出现不同的字符串都映射成0的情况,比如A,AA,AAA皆为0
- 冲突问题:通过巧妙设置P (131 或 13331) , Q (264)(264)的值,一般可以理解为不产生冲突。
问题是比较不同区间的子串是否相同,就转化为对应的哈希值是否相同。
求一个字符串的哈希值就相当于求前缀和,求一个字符串的子串哈希值就相当于求部分和。
前缀和公式 h[i+1]=h[i]×P+s[i]h[i+1]=h[i]×P+s[i] i∈[0,n−1]i∈[0,n−1] h为前缀和数组,s为字符串数组
区间和公式 h[l,r]=h[r]−h[l−1]×Pr−l+1h[l,r]=h[r]−h[l−1]×Pr−l+1
区间和公式的理解: ABCDE 与 ABC 的前三个字符值是一样,只差两位,
乘上 P2P2 把 ABC 变为 ABC00,再用 ABCDE - ABC00 得到 DE 的哈希值。
C++ 代码
#include #include #include using namespace std; typedef unsigned long long ULL; const int N = 1e5+5,P = 131;//131 13331 ULL h[N],p[N]; // h[i]前i个字符的hash值 // 字符串变成一个p进制数字,体现了字符+顺序,需要确保不同的字符串对应不同的数字 // P = 131 或 13331 Q=2^64,在99%的情况下不会出现冲突 // 使用场景: 两个字符串的子串是否相同 ULL query(int l,int r){ return h[r] - h[l-1]*p[r-l+1]; } int main(){ int n,m; cin>>n>>m; string x; cin>>x;
//字符串从1开始编号,h[1]为前一个字符的哈希值 p[0] = 1; h[0] = 0; for(int i=0;i<n;i++){ p[i+1] = p[i]*P; h[i+1] = h[i]*P +x[i]; //前缀和求整个字符串的哈希值 } while(m--){ int l1,r1,l2,r2; cin>>l1>>r1>>l2>>r2; if(query(l1,r1) == query(l2,r2)) printf("Yes\n"); else printf("No\n"); } return 0;
}
题目描述
给定一个长度为n的字符串,再给定m个询问,每个询问包含四个整数l1,r1,l2,r2,请你判断[l1,r1]和[l2,r2]这两个区间所包含的字符串子串是否完全相同。
字符串中只包含大小写英文字母和数字。
输入格式
第一行包含整数n和m,表示字符串长度和询问次数。
第二行包含一个长度为n的字符串,字符串中只包含大小写英文字母和数字。
接下来m行,每行包含四个整数l1,r1,l2,r2,表示一次询问所涉及的两个区间。
注意,字符串的位置从1开始编号。
输出格式
对于每个询问输出一个结果,如果两个字符串子串完全相同则输出“Yes”,否则输出“No”。
每个结果占一行。
数据范围
1≤n,m≤105
样例
输入样例:
8 3
aabbaabb
1 3 5 7
1 3 6 8
1 2 1 2
输出样例:
Yes
No
Yes
算法1
题解
假设有|S|=5的字符串,设Si为第i个字符,其中1≤i≤5。
根据定义分别求出hash[i]
hash[1]=s1hash[1]=s1
hash[2]=s1∗p+s2hash[2]=s1∗p+s2
hash[3]=s1∗p2+s2∗p+s3hash[3]=s1∗p2+s2∗p+s3
hash[4]=s1∗p3+s2∗p2+s3∗p+s4hash[4]=s1∗p3+s2∗p2+s3∗p+s4
hash[5]=s1∗p4+s2∗p3+s3∗p2+s4∗p+s5hash[5]=s1∗p4+s2∗p3+s3∗p2+s4∗p+s5
现在我们想求s3s4的hash值,不难得出为s3∗p+s4,并且从上面观察,如果看hash[4]−hash[2]并将结果种带有s1,s2系数的项全部消掉,就是所求。但是由于p的阶数,不能直接消掉,所以问题就转化成,将hash[2]乘一个关于p的系数,在做差的时候将多余项消除,从而得到结果。
不难发现,对应项系数只差一个p2,而4 - 3 + 1 = 2(待求hash子串下标相减再加一),这样就不难推导出来此例题的求解式子。
hash[4]−hash[2]∗p4−2+1
至此,通过对上例的归纳,可以得出如下的公式。
公式
若已知一个|S|=n|S|=n的字符串的hash值,hash[i],1≤i≤n,其子串sl…sr,1≤l≤r≤n对应的hash值为:
hash=hash[r]−hash[l−1]∗pr−l+1
考虑到hash[i]每次对p取模,进一步得到下面的式子:
hash=(hash[r]−hash[l−1]∗pr−l+1)%MOD
看起来这个式子人畜无害,但是对于取模运算要谨慎再谨慎,注意到括号里面是减法,即有可能是负数,故做如下的修正:
hash=((hash[r]−hash[l−1]∗pr−l+1)%MOD+MOD)%MOD
至此得到求子串hash值公式。
值得一提的是,如果需要反复对子串求解hash值,预处理p的n次方效果更佳。
(STL)
// 该解决方法会爆int #include #include using namespace std; int n ,m; string s; int main(){ cin >> n >> m; cin >> s; while(m–){ int l1,r1,l2,r2; cin>>l1>>r1>>l2>>r2; string s1 = s.substr(l1-1,r1-l1+1); string s2 = s.substr(l2-1,r2-l2+1); if(s1==s2){ cout << “Yes” << endl; }else{ cout << “No” << endl; } }
return 0;
} C++ 代码 #include #include using namespace std; typedef unsigned long long ULL; const int N=100010,M=131; int n,m; char str[N]; ULL p[N],h[N]; ULL get(int l,int r){ return h[r]-h[l-1]*p[r-l+1]; } int main(){ cin>>n>>m; cin>>str+1; p[0]=1; for(int i=1;i<=n;i++) { h[i]=h[i-1]*M+str[i]; p[i]=p[i-1]*M; } while(m–){ int l1,r1,l2,r2; cin>>l1>>r1>>l2>>r2; if(get(l1,r1)==get(l2,r2))puts(“Yes”); else puts(“No”); } return 0; }