1. 程式人生 > >New Distinct Substrings(字尾陣列)

New Distinct Substrings(字尾陣列)

題意

給定一個串,求其不同子串的個數。

題解

又見字尾陣列鬼題,資料範圍1e3的程式碼跑到5e4的就過不了了,gg。

題解詳見羅穗騫奆神的論文《字尾陣列——處理字串的有力工具》

“每個子串一定是某個字尾的字首,那麼原問題等價於求所有後綴之間的不相同的字首的個數。

如果所有的字尾按照suffix(sa[1]), suffix(sa[2]),suffix(sa[3]), …… ,suffix(sa[n])的順序計算,

不難發現,對於每一次新加進來的字尾suffix(sa[k]),它將產生n-sa[k]+1 個新的字首。

但是其中有height[k]個是和前面的字串的字首是相同的。

所以suffix(sa[k])將“貢獻”出n-sa[k]+1- height[k]個不同的子串。

累加後便是原問題的答案。這個做法的時間複雜度為O(n)。”

心得

即對於ABAAC來說,BAAC將產生以B為起點的子串,

注意到所有子串都是字尾的字首,則固定左端點B,右端點有四個選擇B、A、A、C,

所以對於每個起點來說,對子串的貢獻就是該字尾長度,即n-sa[i](這裡sa值從0取)

而每個子串和它前面已出現的公共子串的個數,等於字典序排在它前一位的串與它的最長公共字首的子串個數(LCP Theory)

最長公共字首=height[i],又串長=個數,故每個起點的貢獻是n-sa[i]-height[i],累加即可。

思路來源

程式碼實現

#include<iostream>
#include<cstring>
#include<cstdio>
using namespace std;
#define N 50005

int T,n,m,ans;
char s[N];
int *x,*y,X[N],Y[N],c[N],sa[N],height[N],Rank[N];

void clear()
{
    n=ans=0;
    memset(X,0,sizeof(X));memset(Y,0,sizeof(Y));memset(c,0,sizeof(c));
    memset(sa,0,sizeof(sa));memset(height,0,sizeof(height));memset(Rank,0,sizeof(Rank));
}
void build_sa()
{
    m=200;
    x=X,y=Y;
    for (int i=0;i<m;++i) c[i]=0;
    for (int i=0;i<n;++i) ++c[x[i]=s[i]];
    for (int i=0;i<m;++i) c[i]+=c[i-1];
    for (int i=n-1;i>=0;--i) sa[--c[x[i]]]=i;

    for (int k=1;k<=n;k<<=1)
    {
        int p=0;
        for (int i=n-k;i<n;++i) y[p++]=i;
        for (int i=0;i<n;++i) if (sa[i]>=k) y[p++]=sa[i]-k;

        for (int i=0;i<m;++i) c[i]=0;
        for (int i=0;i<n;++i) ++c[x[y[i]]];
        for (int i=0;i<m;++i) c[i]+=c[i-1];
        for (int i=n-1;i>=0;--i) sa[--c[x[y[i]]]]=y[i];

        swap(x,y);
        p=1;x[sa[0]]=0;
        for (int i=1;i<n;++i)
            x[sa[i]]=y[sa[i-1]]==y[sa[i]]&&((sa[i-1]+k<n?y[sa[i-1]+k]:-1)==(sa[i]+k<n?y[sa[i]+k]:-1))?p-1:p++;
        if (p>n) break;
        m=p;
    }
}
void build_height()
{
    for (int i=0;i<n;++i) Rank[sa[i]]=i;
    int k=0;height[0]=0;
    for (int i=0;i<n;++i)
    {
        if (!Rank[i]) continue;
        if (k) --k;
        int j=sa[Rank[i]-1];
        while (i+k<n&&j+k<n&&s[i+k]==s[j+k]) ++k;
        height[Rank[i]]=k;
    }
}
int main()
{
    scanf("%d\n",&T);
    while (T--)
    {
        clear();
        scanf("%s",s);
		n=strlen(s);
        build_sa();
        build_height();
        for (int i=0;i<n;++i)
            ans+=n-sa[i]-height[i];
        printf("%d\n",ans);
    }
    return 0; 
} 

自己的板子就會出現各種RE、WA的錯誤,網上程式碼就能一遍A,

比對一下發現好像沒差什麼,很迷啊...