SUBST1 - New Distinct Substrings
Given a string, we need to find the total number of its distinct substrings.
Input
T- number of test cases. T<=20; Each test case consists of one string, whose length is <= 50000
Output
For each test case output one number saying the number of distinct substrings.
Example
Input:
2
CCCCC
ABABA
Output:
5
9
题意:
给你一个长N的字符串,问你该字符串中出现了多少个不同的子串?
分析:
论文例题.
首先建立后缀数组,求出sa和height数组.
对于任意子串,它必然是一个后缀的前缀.
然后依次从height[1]到height[n-1]来处理每个后缀.每个后缀会贡献n-1-sa[i]个不同的前缀,但是其中由height[i]个前缀子串是与前一个后缀贡献的前缀子串重复的,所以每个后缀会贡献n-1-sa[i]-height[i]个新的前缀子串(想想是不是).
#include <bits/stdc++.h>
using namespace std;
const int maxn=500000+1000;
int len1,len2;
int num[maxn];
struct SuffixArray
{
char s[maxn];
///_rank[i] 第i个后缀的排名; SA[i] 排名为i的后缀位置; Height[i] 排名为i的后缀与排名为(i-1)的后缀的LCP
int sa[maxn],_rank[maxn],height[maxn];
///c[i] 基数排序辅助数组
int t1[maxn],t2[maxn],c[maxn],n;
int dmin[maxn][21];
void init()
{
memset(height,0,sizeof(height));
memset(_rank,0,sizeof(_rank));
memset(sa,0,sizeof(sa));
memset(c,0,sizeof(c));
memset(t1,0,sizeof(t1));
memset(t2,0,sizeof(t2));
memset(dmin,0,sizeof(dmin));
}
void build_sa(int m) ///m大于s[]数组出现的任意字符的int值
{
/// x[i]是第i个元素的第一关键字 y[i]表示第二关键字排名为i的数,第一关键字的位置
int i,p,*x=t1,*y=t2;
x[n]=y[n]=-1;
for(i=0; i<m; i++)
c[i]=0;
for(i=0; i<n; i++)
c[x[i]=s[i]]++;
for(i=1; i<m; i++)
c[i]+=c[i-1];
for(i=n-1; i>=0; i--)
sa[--c[x[i]]]=i;
for(int k=1; k<=n; k<<=1)
{
p=0;
for(i=n-k; i<n; i++)
y[p++]=i;
for(i=0; i<n; i++)
if(sa[i]>=k)
y[p++]=sa[i]-k;
for(i=0; i<m; i++)
c[i]=0;
for(i=0; i<n; i++)
c[x[i]]++;
for(i=1; i<m; i++)
c[i]+=c[i-1];
for(i=n-1; i>=0; i--)
sa[--c[x[y[i]]]]=y[i];
swap(x,y);
p=1;
x[sa[0]]=0;
for(i=1; i<n; i++)
{
if(y[sa[i]]==y[sa[i-1]]&&y[sa[i]+k]==y[sa[i-1]+k])
x[sa[i]]=p-1;
else
x[sa[i]]=p++;
}
if(p>=n)
break;
m=p;
}
}
void build_height()//单个字符也行
{
int i,j,k=0,r;
for(i=0; i<n; i++)
_rank[sa[i]]=i;
height[0]=0;
for(i=0; i<n; i++)
{
if(k)
k--;
r=_rank[i];
if(r==0)
continue;
j=sa[r-1];
while(s[i+k]==s[j+k])
k++;
height[_rank[i]]=k;
}
}
int LongestMessage() //最长公共子串
{
int ans=0;
for(int i=2; i<n; i++)
{
int a1=sa[i-1],a2=sa[i];
if(a1>a2)
swap(a1,a2);
if(a1>=0&&a1<=len1-1&&a2>=len1+1&&a2<=len1+len2)
ans = max(ans,height[i]);
}
return ans;
}
void initMin()
{
for(int i=0; i<n; i++)
dmin[i][0]=height[i];
for(int j=1; (1<<j)<=n; j++)
for(int i=0; i+(1<<j)-1<n; i++)
dmin[i][j]=min(dmin[i][j-1],dmin[i+(1<<(j-1))][j-1]);
}
int RMQ(int L,int R)//取得范围最小值
{
int k=0;
while((1<<(k+1))<=R-L+1)
k++;
return min(dmin[L][k], dmin[R-(1<<k)+1][k]);
}
int LCP(int i,int j)//求后缀i和j的LCP最长公共前缀
{
if(i==j)
return n-i;
int L=_rank[i],R=_rank[j];//求后缀i与后缀j的LCP
//if(i==j) return n-sa[i];
//int L=i,R=j;//直接求排名i与j后缀的LCP
if(L>R)
swap(L,R);
L++;//注意这里
return RMQ(L,R);
}
//主函数 sa.n=strlen(sa.s)+1;sa.s[sa.n-1]=0;
int num()//子串的个数
{
int ans=0;
for(int i=1; i<n; i++)
ans += n-1-sa[i]-height[i];
return ans;
}
//确定子串[be,be+len-1]的在后缀排名区间[L,R]
int get_LR(int be,int len,int &L,int &R)
{
int pos=_rank[be];
int l=0,r=pos;
while(l<r)
{
int mid=(l+r)>>1;
if(RMQ(mid+1,pos)>=len)
r=mid;
else
l=mid+1;
}
L=l;
l=pos;
r=n-1;
while(l<r)
{
int mid=(l+r+1)>>1;
if(RMQ(pos+1,mid)>=len)
l=mid;
else
r=mid-1;
}
R=l;
}
//恰好出现w次子串的个数
int num_w(int w)
{
int ans=0;
for(int i=0; i+w-1<n; i++)
ans+=max(0,LCP(i,i+w-1)-max(height[i],height[i+w]));
return ans;
}
void out()
{
for(int i=0; i<n; i++)
{
cout<<sa[i]<<" ";
}
cout<<endl;
for(int i=0; i<n; i++)
{
cout<<_rank[i]<<" ";
}
cout<<endl;
for(int i=0; i<n; i++)
{
cout<<height[i]<<" ";
}
cout<<endl;
}
} sa;
int main()
{
int T;
scanf("%d",&T);
while(T--)
{
sa.init();
scanf("%s",sa.s);
sa.n=strlen(sa.s)+1;
sa.s[sa.n-1]=0;
sa.build_sa(300);
sa.build_height();
printf("%d\n",sa.num());
}
return 0;
}