描述
很久很久以前,森林里住着一群兔子。有一天,兔子们想要研究自己的 DNA 序列。我们首先选取一个好长好长的 DNA 序列(小兔子是外星生物,DNA 序列可能包含 26 个小写英文字母),然后我们每次选择两个区间,询问如果用两个区间里的 DNA 序列分别生产出来两只兔子,这两个兔子是否一模一样。注意两个兔子一模一样只可能是他们的 DNA 序列一模一样。
输入格式
第一行一个 DNA 字符串 S。
接下来一个数字 m,表示 m 次询问。
接下来 m 行,每行四个数字 l1, r1, l2, r2,分别表示此次询问的两个区间,注意字符串的位置从1开始编号。
其中 1 ≤ length(S), m ≤ 1000000
输出格式
对于每次询问,输出一行表示结果。如果两只兔子完全相同输出 Yes,否则输出 No(注意大小写)
样例输入
aabbaabb
3
1 3 5 7
1 3 6 8
1 2 1 2
样例输出
Yes
No
Yes
来源
罗翔宇,北京大学2014年数据结构与算法A(实验班)期末考试
题解:
参考《算法竞赛进阶指南》P62-64。
给所有可能出现的字符赋值,例如所有 $a$ 到 $z$ 小写字母赋值 $1$ 到 $26$,然后给定一个远大于所有字符集的大小的数字 $P$,把所有字符串看成是一个 $P$ 进制数。
然后在给定一个模数 $M$,所有字符串转成 $P$ 进制数后,再去模这个 $M$,得到的结果即为哈希函数值。
假设 $S,T$ 是两个字符串,而 $c$ 是一个字符,则有
$\begin{array}{l} H\left( {S + c} \right) = \left( {H\left( S \right) \times P + H\left( c \right)} \right)\bmod M \\ H\left( {S + T} \right) = \left( {H\left( S \right) \times P^{len\left( T \right)} + H\left( T \right)} \right)\bmod M \\ \end{array}$
根据以上两个公式,可以 $O(len(S))$ 处理一个字符串的所有前缀子串的哈希值,同时可以 $O(1)$ 的查询任意子串的哈希值。
AC代码:
#include<bits/stdc++.h>
using namespace std;
typedef unsigned long long ull;
const int P=131;
const int maxn=1000000+10;
char s[maxn];
int q;
ull H[maxn],Ppow[maxn];
void pretreat(int len)
{
H[0]=0;
Ppow[0]=1;
for(int i=1;i<=len;i++)
{
H[i]=H[i-1]*P+(s[i]-'a'+1);
Ppow[i]=Ppow[i-1]*P;
}
}
int main()
{
scanf("%s",s+1);
pretreat(strlen(s+1));
scanf("%d",&q);
for(int i=1;i<=q;i++)
{
int l1,r1,l2,r2;
scanf("%d%d%d%d",&l1,&r1,&l2,&r2);
ull A=H[r1]-H[l1-1]*Ppow[r1-(l1-1)];
ull B=H[r2]-H[l2-1]*Ppow[r2-(l2-1)];
if(A==B) printf("Yes\n");
else printf("No\n");
}
}
时间复杂度:$O(len(S) + m)$