1. 程式人生 > >後基因組時代的基因組功能註釋

後基因組時代的基因組功能註釋

基因組功能註釋的研究內容與方法  
    顧名思義,基因組功能註釋的研究物件是基因組序列,其研究內容可分為以下三個層次.
1 1 基因組組成元素的識別
  首先要預測基因組的全部編碼區或稱“開放閱讀框架(openreadingframe,ORF)”.ORF的識別手段可以分為兩大類:一類是評估未知DNA片段的編碼可能性,稱為概率型方法,如應用隱馬爾可夫模型的GENSCAN[9];另一類是通過同源性比較搜尋蛋白質庫或dbEST庫找尋編碼區[10].需要指出的是,EST測序的飛速發展,使得dbEST中的記錄已經超過一百多萬條.對於人基因組來說,理論上接近所有的基因都在dbEST庫中有對應的EST.這種方法越來越受到重視,不僅因為它可以判斷一段DNA中是否包含ORF,而且能精確地給出該基因的內含子和外顯子的剪下模式.在線蟲基因組的ORF識別中,綜合運用了上述兩種手段[3].總的來看,原核
基因組
的基因識別正確率較高;真核生物比較低,方法學上仍需要改進.非編碼區包括各類重複序列、基因表達調控序列等,對它們的註釋同樣具有重要意義.相對編碼區而言,這方面的工作較少.
1 2 註釋所有ORF產物的功能
  這是目前基因組功能註釋的主要層次.對於已有實驗證據的基因產物只需將功能描述與相應基因關聯即可.對於無實驗證據的基因,從生物資訊學[11]研究的角度出發,目前主要有三大類方法可用於大通量的基因組功能註釋工作:a 用最大相似的同源基因的功能註釋諮詢序列;b 用模體(MOTIF)搜尋,因為模體往往是功能相關的保守序列;c 用Tatusov等的COG(clusterofortholo gousgroup)———直系同源簇方法[12],即用不同種族的基因成對相似聚類法把它們劃分成各種直系同源簇,從而可以用同一簇中的已知基因註釋未知基因的功能.在序列分析之外,還有兩個新興領域對基因組功能註釋意義重大:結構
基因組
的研究與蛋白質組的研究.它們正在使得基因組功能註釋發生深刻的變化.有關具體問題下面還將細述.
1 3 基因之間相互作用及比較基因組學研究
  基因組的各組成基因在序列水平,有位置排列的順序關係;在轉錄、表達水平,又有基因、基因產物之間的相互作用.因此完整地瞭解基因的功能必然要研究其在生物體代謝途徑中的地位,並儘可能揭示它們之間相互調控的機制,繪製出調控網路的圖式.比較基因組研究不僅可以揭示生命的起源、進化等重大生物學問題,還具有不可低估的實用價值.比如通過細菌、真核生物的比較基因組研究,有望篩選出只在細菌中保守的基因,作為廣譜抗菌素的藥靶.目前該層次的研究正處於起步階段.
2 當前基因組功能註釋的主要進展
  後基因組時代的到來必然要求基因組功能註釋工作成為功能
基因組
學研究中的重要組成部分.我們在這裡主要討論當前最受關注的第二個層次,即應用生物資訊學方法進行ORF功能預測問題.
2 1 最大序列相似性搜尋
  基於序列比較的最大相似法為序列基因組學解決了許多問題,在各種基因及蛋白質的進化、結構、催化等特性的研究中取得了很多成果.但是現在經大規模基因組比較資料發現這肯定會導致錯誤.比如1998年的網路雜誌《InSilicoBiology》第一期[13]中,列舉了大量此類錯誤.錯誤的根源在於“同源=功能相似”的假定.相似比較沒有解析各種族基因間的進化關係,如趨同和趨異、重複(duplication)、基因缺失(genelose)、基因水平轉移(genehorizontaltransfer)等.由於其具有大通量與自動化的優勢,與線蟲基因組測序同期完成的線蟲與酵母之間的直系同源體的搜尋[14]仍然採用這種方案.為減少錯誤,實際運用中作了改進:設立了幾個同源性指標等級,如P值從10-100到10-10之間有4檔,另外還有同源區域的長度比例條件.這樣包含了一對多、多對多的直系同源關係,部分改善了最高相似法的結果,但沒有從根本上解決問題.
2 2 序列模體搜尋
  序列模體搜尋的是查詢序列上的區域性特徵.在序列整體同源性不明顯的情況下,模體搜尋可以提高功能預測的靈敏度,模體分析一般由兩部分組成:首先收集現有的蛋白質家族,通過蛋白質家族各成員的多重聯配來構造模體資料庫,而後通過搜尋該資料庫預測未知蛋白質的功能.典型的模體資料庫有Prosite[15]等.越來越多的事實表明,模體本身具有層次性,在一個蛋白質家族具有相同的模體的情況下,亞家族可能具有各自特異的模體,它們與功能的聯絡更為特異[16].而目前現有的模體庫在製作時沒有深入考慮進化關係,其形成的模體往往不是功能特異的.這成為用模體搜尋法作基因組功能註釋的最大障礙.
2 3 COG方法
  Tatusov等[12]的COG方法是在基因組水平上找尋直系同源體,從而預測未知ORF的生物學功能,所謂直系同源(ortholog)是指不同物種中由同一個祖先基因特化而來的對應基因,相應旁系同源(paralog)是指基因組內基因複製形成的多個基因[17].一般而言,直系同源之間保持了同樣的功能,旁系同源則進化出不同的功能.因此確定直系同源對功能註釋的可靠性很重要.COG的構建者提出了三項考核標準,即A基因組的某個基因a是B基因組中基因b的直系同源需滿足:第一,a是b在A基因組中同源性最高的基因;第二,若C基因組與B基因組在系統發育樹上的距離大於A到B的距離,c是b在C基因組中同源性最高的基因,則要求ab之間的同源性好於cb之間的同源性;第三,ab的同源區域大於各序列長度的60%.若三條件在ab互換時也成立,則ab兩基因互為直系同源.他們以7種全基因組序列已知的生物為物件,用BLAST交錯搜尋,構造出720個COG,由於“直系同源=功能相似”比“同源=功能相似”更接近於生物學的客觀實際,從而可以將功能資訊從COG的一個成員傳遞到COG中其他功能未知的成員.該方法充分利用了全基因組已知的優勢,大大提高了功能註釋的準確度.目前其考察的基因組已擴大到8個.
2 4 進化分析方法
  最近,COG方法也面臨挑戰.COG的核心即直系同源的判斷方法仍在序列相似性比較的框架內.Eisen[18]主張用較為嚴格的進化分析的方法劃分直系同源.具體方案是:先找尋同源性為基礎的蛋白質家族,再用進化分析方法將其分為亞家族,並用亞家族中已知蛋白質的功能描述註釋該亞家族中功能未知的成員.由於基因樹與物種進化關係形成的種族樹之間常有矛盾,Page等[19]發展了和諧樹———“RECONCILEDTREE”方法來識別基因重複與基因丟失等進化事件.和諧樹反映了基因在基因組載體上的進化歷程(圖1).進化分析的範圍可以從單個基因組擴大到具有不同系統發育位置的多個基因組.進化分析方法涉及的分析工具較多,無法自動化操作,難以實現高通量的功能註釋.圖1 基因樹、種族樹與和諧樹圖中基因樹與種族樹是不和諧的.若引入一次基因重複(R)和四次基因丟失(L)則構成和諧樹.a~d:表示基因;A~D:表示各種族.
2 5 進化印記搜尋
  在上述方案的基礎上,我們研究小組發展出一種利用生物分子進化印記———直系同源體特異的模體註釋基因組功能的簡便與有效的方案[20].該方案綜合了進化分析的準確與模體搜尋的快速的特點,對5個家族檢驗獲得初步成功,顯示出該方案具有潛在的優勢.
2 6 亞細胞定位
  蛋白質的功能與其亞細胞定位密切相關.蛋白質序列分析有助於推測亞細胞定位.而亞細胞定位所提供的資訊往往可以在同源性分析得出的結果模稜兩可時起到“一錘定音”的效果.目前預測未知蛋白質的亞細胞定位的方法主要是從蛋白質的氨基酸組成出發.Reinhardt等[21]將蛋白質按來源分為真核、原核兩大類,用神經網路法根據蛋白質的氨基酸組成來判斷該蛋白的亞細胞定位,結果比較好,其中原核生物蛋白質的定位準確率達到81%.Andrade等[22]指出用整個蛋白質的氨基酸組成顯得比較粗糙,決定蛋白質亞細胞定位的主要因素是蛋白質表面氨基酸的性質.他們用主成分分析法研究蛋白質在核內、胞質、胞外的分佈,總準確率高於前一種方法.
2 7 結構基因組
  結構基因組學的興起使得三維結構模建和結構類的識別成為基因組功能註釋的一個重要方面.越來越多的例子表明,同樣的三維結構可以由很不相似的序列摺疊而成,而三維結構尤其是關鍵部分的三維結構是決定蛋白質生物學功能的基礎.如果能夠模擬出未知基因的蛋白質產物的三維結構,就可以根據結構與功能的關係作出功能註釋.由於目前從頭預測三維結構尚難達到實際應用的程度,而同源模建要求有一定程度的序列同源性的模板蛋白,所以很多未知ORF的蛋白質產物無法模建出可信度高的結構.在這種情況下結構類的識別較有實際意義.由於結構類與蛋白質超家族有對應關係,故可根據蛋白質所屬的超家族對其功能作出初步的推測.目前的結構類識別方法研究的熱點領域是“穿線”法———Threading[23].有若干研究小組正通過實驗與模擬方法系統地分析基因組上所有基因產物的空間結構,因此賦予結構基因組學以新的含義.類似於序列模體的概念,由蛋白質特定區域形成的空間上的三維模體得到越來越多的重視,三維模體搜尋方法發展得很快[24],有望成為一種新的功能註釋的資訊來源.進一步,結構基因組學的研究可以深入探求蛋白質為何具有特定的生物學功能.Bryant等給出了一個例項[25].PTEN基因編碼一個403個氨基酸殘基的蛋白質,已有文獻報道其123、124、129位的突變可能導致Cowden病.由於其結構尚未解出,不能理解致病機制.用BLAST搜尋,找不到具有已知結構的同源序列.他們用“同源”的可傳遞性找到PTEN的一個有結構資訊的同源蛋白Cdc14b2,其PDB編號為1VHR,編碼一個磷酸酶.通過“穿線”法作出序列———結構聯配.比較之後,發現PTEN124位的半胱氨酸與1VHR磷酸酶活性位點的半胱氨酸對應.而1VHR該位點突變為絲氨酸會破壞其磷酸酶活性.由此推斷PTEN該位點突變為精氨酸導致Cowden病的機制也是磷酸酶的活性的破壞.
2 8 蛋白質組
  蛋白質組是生命狀態的直接體現,隨發育階段、特定組織甚至所處的環境的變遷而變化,反映了蛋白質後加工等作用,蘊藏著巨量的動態的生命活動資訊[26].序列分析難以處理的沒有任何同源序列的“孤兒”基因,有望從蛋白質組的表達變化規律中找到其生物學功能的線索,進而揭示出它在整個功能網路中的地位[27].目前,蛋白質組的核心技術2D Gel和質譜分析發展很快,可以一次分離幾千甚至上萬蛋白質點和鑑定出翻譯後加工的機制.隨著蛋白質組技術的日益成熟,其不僅可以作為現有功能註釋的鑑定和補充,甚至可以獨立地完成基因組的功能註釋.
3 基因組功能註釋的展望
  隨著基因組序列資料的積累和生物資訊學的飛速發展,將會有更靈敏、更有效的演算法出現,功能註釋的可靠性會不斷提高,範圍會不斷擴大.隨著完整基因組數量的增加,比較基因組學也將提供更多的生物進化歷程的資訊.  我們認為,基因組功能註釋有幾個值得重視的方向.a 非編碼區的功能註釋.由於目前測定的基因組多是單細胞原核生物,非編碼區比例很小,所以研究工作相對較少.而高等真核生物基因組的90%以上是非編碼區.其中有很多是具有生物學功能意義的片段,它們對於全面理解基因組功能,尤其是瞭解各相關基因之間的調控關係是不可缺少的.隨著多細胞真核生物的基因組序列的出現,可以預計,非編碼區的功能註釋將成為新的熱點.b 人類物理圖譜、基因圖譜的利用.1998年10月23日出版的《Science》的基因組專輯發表了國際上幾個知名研究機構共同努力完成的包含人3萬個基因的物理圖[28],準確度比以往提高了2~3倍.通過這張圖,可以將功能註釋與基因定位資料聯絡起來,再通過OMIM(人遺傳疾病表型)等資料庫查詢臨床表型.這具有非常重大的理論和實際意義.在以上各分析方法的基礎上,今後的基因組功能註釋將向更高層次發展,即確定所有基因組成分在生物體功能網路上的地位,並進而從根本上溝通基因型與表型,即整體生物學.完整的生物學功能是在生化途徑(biochemicalpathway)例如代謝途徑、調控途徑等中體現出來的.Karp等[29]製作的大腸桿菌的完整代謝圖譜———ECOCYC就是一個典型代表.日本京都大學的Bono等[30]重建了E.coli,H.influenzae等5種全基因組已測定的微生物的20種氨基酸的代謝途徑.在這個過程中,一些原來沒有功能資訊或標定錯誤的ORF得到了正確的功能描述.他們將陸續積累的研究結果以超文字形式發放到INTERNET上,取名KEGG(KyotoEncyclopediaofGenesandGenomes).目前已發展到9 0版.今後此類研究將引起更大的關注.表1中列出了目前網際網路上有關基因組功能註釋的一些WWW站點地址.