1. 程式人生 > >鹼基序列匹配 (25 分)

鹼基序列匹配 (25 分)

地理專案是IBM和國家地理學會的合作研究專案,從成千上萬捐獻的DNA分析地球上人類是如何繁衍的。

作為一個IBM的研究人員,請你寫一個程式找出給定的DNA片段之間的相同之處,使得對個體的調查相關聯。

一個DNA鹼基序列是指把在分子中發現的氮基的序列給羅列出來。有四種氮基:腺嘌呤 (A)、胸腺嘧啶(T)、鳥嘌呤(G)和胞嘧啶(D),例如,一個6鹼基DNA序列可以表示為 TAGACC。

給出一個DNA鹼基序列的集合,確定在所有序列中都出現的最長的鹼基序列。

輸入格式:

輸入的第一行給出了整數n,表示測試資料集合的數目。每個測試資料集合由下述兩部分組成:

一個正整數m(2≤m≤10),給出資料集合中鹼基序列的數目。

m行,每行給出一個60鹼基的鹼基序列。

輸出格式:

對於輸入的每個測試資料集合的所有的鹼基序列,輸出最長的相同的鹼基子序列。

如果最長的相同的鹼基子序列的長度小於3,則輸出“no significant commonalities”來代替鹼基子序列。

如果相同最長長度的子序列有多個,則僅輸出按字母排序的第一個。

輸入樣例:

3
2
GATACCAGATACCAGATACCAGATACCAGATACCAGATACCAGATACCAGATACCAGATA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
3
GATACCAGATACCAGATACCAGATACCAGATACCAGATACCAGATACCAGATACCAGATA
GATACTAGATACTAGATACTAGATACTAAAGGAAAGGGAAAAGGGGAAAAAGGGGGAAAA
GATACCAGATACCAGATACCAGATACCAAAGGAAAGGGAAAAGGGGAAAAAGGGGGAAAA
3
CATCATCATCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCC
ACATCATCATAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AACATCATCATTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTT

輸出樣例:

no significant commonalities
AGATAC
CATCATCAT

 本題由於資料規模較小,直接暴力求解,列舉所有子串,用strstr()函式,或者find()函式在其他串中匹配,或者用kmp也行。

#include<bits/stdc++.h>
using namespace std;

#define maxsize 61

void match(char c[][maxsize],int m)   ///二維陣列c的行數為n
{
    bool findout=false;             ///是否找到公共串
    char ans[maxsize];              ///存放找到的公共串
    strcpy(ans,"Z");                ///初始化ans,因為題目中字串的字母只有ATGD
    for(int i=60; i>=3; i--) ///列舉所有子串,長度i,從大到小,因為要求的是最長的公共子串
    {
        for(int j=0; j<=60-i; j++)  ///列舉所有長度為i的字串
        {
            char pattern[maxsize];  ///存放每次列舉的子串
            int cnt=0;              ///記錄與後面字串匹配的字串的個數
            strncpy(pattern,c[0]+j,i);   ///列舉子串
            pattern[i]='\0';
            for(int k=1; k<m; k++)   ///在剩下的鹼基序列中查詢是否有該子串
            {
                if(strstr(c[k],pattern)) cnt++;
                else break;
            }
            if(cnt==m-1 && strcmp(ans,pattern)>0) ///如果都有pattern子串並且比原有的ans字典 
                                                  ///序小,則拷貝給ans
                strcpy(ans,pattern),findout=true;
        }
        if(findout)         ///如果長度為i的子串都匹配成功,
                            ///直接列印,因為從大到小列舉,得到的肯定是最長的
        {
            printf("%s\n",ans);
            return;
        }
    }
    strcpy(ans,"no significant commonalities");
    printf("%s\n",ans);
}
int main()
{
    int n;
    cin>>n;
    while(n--)
    {
        int m;
        scanf("%d",&m);
        char c[m][maxsize];
        for(int i=0; i<m; i++)
        {
            scanf("%s",c[i]);
        }
        match(c,m);
    }
    return 0;
}