1. 程式人生 > >生信資料庫ID大總結-想踏入生信大門的你值得擁有

生信資料庫ID大總結-想踏入生信大門的你值得擁有

花了差不多一週寫了這個總結
希望對一些小夥伴有幫助

目錄

各大生信資源的使用流行程度
生信資料庫的霸主-NCBI以及Entrez檢索系統
Gene查詢好幫手-Entrez Gene資料庫
人類基因命名委員會-HGNC
Ensembl計劃
NCBI非冗餘序列資料庫-RefSeq
NCBI核酸序列資料庫-GenBank
蛋白質序列資料庫-Uniprot
GEO資料庫
拓展閱讀-GENCODE

要想成為一名合格的生物資訊工程師,首要條件就是能在各大生信資料庫中自由翱翔。目前的生信資料庫大體可以分為三類:核酸資料庫(例如:GenBank,Ensembl等),蛋白質資料庫(例如:Uniprot,PDB等)以及專用資料庫(例如:KEGG,GO,GEO等等)。可以說資料庫的種類和數量都非常的繁多!同時,每個資料庫都有自己獨特的檢索ID編號(例如Entrez ID,Ensembl ID 等等),也就是說同一個基因在不同的資料庫中會有不同的名稱。這麼多生信ID和資料庫看著真是眼花繚亂。。。我們幾乎不可能全部都記住!

所以,為了提高學習效率,我們首先來看看生信領域最流行使用的資料庫有哪些吧,然後再針對性地去學習相應的資料庫和它們的編號系統!

各大生信資源的使用流行程度

PLOS-ONE上的一篇文章利用bioNerDS工具分析了Pubmed的 5,411,968篇文獻的語料庫,最終得到下列生信領域的資源使用排名:
rank

從這張表,我們可以明顯發現生信領域的NCBI-GenBank, UniProt, GO, KEGG和GEO等資料庫的使用頻率都非常高。所以,我們的學習就從這些主要的資料庫開始!


生信資料庫的霸主-NCBI以及Entrez檢索系統

談到生信資料庫,就不得不提非常著名的NCBI。NCBI是什麼呢

NCBI(National Center for Biotechnology information)即美國國家生物技術資訊中心,由美國國立衛生醫學圖書館(NLM)於1988年建立。該中心的任務是:為儲存和分析分子生物學、生物化學、遺傳學知識建立自動化系統;從事研究基於計算機的資訊處理過程的高階方法,用於分析生物學上重要的分子和化合物的結構與功能;促進生物學研究人員和醫護人員應用資料庫和軟體;努力協作以獲取世界範圍內的生物技術資訊。

所以,需要明確的是,我們常說的NCBI是一個機構組織,而不是資料庫喔。那麼,我們登陸的NCBI的網頁(https://www.ncbi.nlm.nih.gov/)

所訪問的資料庫和NCBI是什麼關係呢?那就不得不提Entrez啦!

Entrez是歸屬於NCBI的一個綜合的文字檢索引擎系統。這個檢索引擎整合了PubMed資料庫的生物醫學文獻與其他39個文獻和分子資料庫(例如GEO,Entrez Gene等,這些資料庫基本涵蓋了DNA和蛋白質序列,結構,基因,基因組,遺傳變異和基因表達方面的資料)。

所以,我們通常所說的檢索NCBI資料庫,其實就是在檢索Entrez這個引擎系統所整合的生信資料庫。簡而言之就是,NCBI組織建立了Entrez,Entrez整合了各大資料庫的入口,方便我們進行資料庫檢索

瞭解了NCBI和Entrez的關係之後,我們來看看還有哪些常用的資料庫吧。
假設我們現在想檢索一個名字叫做TP53的基因,瞭解它的故事,我們應該去哪個資料庫呢?同時,TP53只是這個基因多個名稱中的一個(它還有其它的名字,例如:7157,HGNC:11998等等),所以這些不同的基因名稱之間又有什麼區別呢?
OK , 讓我們一一道來!
首先,要想快速瞭解一個Gene並且獲取和它相關連結的外鏈資料庫,我們首推Entrez Gene資料庫!什麼是Entrez Gene資料庫呢?


Gene查詢好幫手-Entrez Gene資料庫

Entrez Gene資料庫是Gene查詢的好幫手,一般情況下我們如果想快速瞭解一個Gene的基本資訊,可以直接進入(https://www.ncbi.nlm.nih.gov/gene/) 進行搜尋。

NCBI的Gene資料庫
Entrez Gene資料庫其實就是我們現在指的NCBI中的Gene資料庫(這兩個名字指的是同一個資料庫)
Gene資料庫建立的目的是,整合各個方面和基因相關的資料資源,構建一個能夠使人快速訪問並且獲取特定基因資訊的訪問入口,從而為資料交換以及科學家們的研究提供便利。它的資料包含了和基因相關的序列,結構,以及基因表達等等的資訊,是基因資源的綜合資料庫。

我們輸入TP53之後會得到這樣的檢索結果介面:
tp53

在標題下面,我們可以看到Gene ID: 7157 這一行,7157就是我們耳熟能詳的Entrez Gene ID啦,它是目前國際上最權威的Gene ID編號!

Entrez Gene ID 又可以稱為Entrez ID ,也是我們通常所說的Gene ID 。它是來源於Entrez Gene資料庫的編號系統。每個Gene資料庫中的記錄資料都會被分配一個唯一的Gene ID編號。編號的格式就是一串數字,例如:7157,2131這樣的。同時,Gene ID的數字並不是連續分配的(也就是說有間隔)。
Gene ID的分配規則:Gene ID通常被分配給RefSeq資料庫中註釋為基因的物件,當然,並不是所有的Gene ID都基於RefSeq,如果RefSeq資料庫中沒有記錄,也可以指定GeneID。
需要注意的是,Gene ID編號的命名是具有物種特異性的(例如,編碼人的肌營養不良蛋白的基因和編碼小鼠肌營養不良蛋白的基因,它們倆的Gene ID在Gene資料庫中編號是不一樣的,分別是:1756 和 13405)。

關於Entrez Gene資料庫,我們還可以來看看一個統計數字

Entrez Gene 中目前一共有61118條人類的Gene ID記錄(記錄包括功能基因,假基因,預測基因等等),68389條小鼠Gene ID的記錄,可以說是非常全面了。
human gene id
mouse gene id
同時,Gene資料庫中的ID記錄是每日更新一次,可以保證我們每天看到的Gene ID記錄都是最新的啦

Entrez Gene資料庫現在既然這麼厲害,那它最初的時候是什麼模樣呢,聊聊歷史吧

歷史
Gene資料庫首次公開是在1999年,那時它的名字還不叫Gene,而是叫做LocusLink(曾用名,現已不再使用)。當時剛剛發表的LocusLink只包含了人類這一個物種的資料資訊,而且只有不多於9000條的記錄。LocusLink的外鏈資料庫也只有dbSNP, OMIM, RefSeq, GenBank, 和UniGene。(見下圖)
locus link

而到2003年,Entrez Gene資料庫釋出,Gene資料庫的資料已經包含了10個物種,195000條記錄,外鏈資料庫也增加了許多,包括dbSNP, Ensembl, the HUGO Gene Nomenclature Committee (HGNC), GEO, Map Viewer等等。至今,隨著生物大資料的爆發式增長,Gene資料庫包含的資料記錄與外鏈資料庫也越來越多,已經成為生信工作者必不可少的工具之一。

可見,我們的Enrez Gene資料庫的發展也是很迅速噠!
瞭解完Entrez Gene之後,我們再接著往下看,出現了Summary這一欄,首先映入眼簾的是三行

  • Official Symbol : TP53 provided by HGNC
  • Official Full Name tumor protein p53 provided by HGNC
  • Primary source HGNC: HGNC:11998

不約而同,這三行的內容來源均是HGNC,什麼是HGNC呢?


人類基因命名委員會-HGNC

人類中大多數基因的命名,是由HGNC(HUGO Gene Nomenclature Committee,人類基因命名委員會)來完成的。

  • HGNC(HUGO Gene Nomenclature Committee)即人類基因命名委員會,是由美國國家人類基因組研究所(NHGRI)和英國惠康信託基金(Wellcome Trust)共同出資成立的非盈利機構。

  • 早在二十世紀60年代的時候,科學家們就意識到基因規範命名的重要性。於是1979年,在愛丁堡的人類基因組會議(HGM)上,Phyllis J. McAlpine博士所組成的命名委員會首次提出了人類基因命名規範。2007年9月,HGNC搬遷到歐洲生物資訊學研究所(EBI)。目前,HGNC可以說是國際上非常權威的人類基因命名組織了

  • 目前,HGNC已經批准了超過41500個Gene Symbol ,其中超過19190個基因屬於蛋白質編碼基因,超過 7300個基因屬於非編碼RNA的基因,同時HGNC還為假基因以及基因組特徵命名。HGNC也允許個人在遵循命名規範的前提下,向他們提交Gene Symbol的命名。

所以,剛才我們看到的Official Symbol(Gene Symbol),Official Full Name,HGNC:ID的含義分別是:

  • HUGO Gene Symbol:HUGO Gene Symbol(也叫做HGNC Symbol,即基因符號)是HGNC組織對基因進行命名描述的一個縮寫識別符號(如:TP53),這些基因符號都是唯一的。
  • Gene Name:Gene Name是經過HGNC批准的全基因名稱;對應於上面批准的符號(Gene Symbol)。例如TP53對應的Gene Name就是:tumor protein p53 。
  • HGNC ID:HGNC ID是HGNC資料庫分配的基因編號,每一個標準的Symbol都有對應的HGNC ID 。我們可以用這個編號,在HGNC資料庫中搜索相關的基因。例如:HGNC:11998
  • 有時候HGNC會對一些已經命名過的基因進行重新審查和重新命名,以確保新的基因命名在描述基因功能方面更加的準確。當一個基因被HGNC分配了新的Gene Symbol時,它之前的命名,會被當作同義詞繼續使用,所以一般建議使用HGNC ID而不是HGNC Symbol來作為我們處理資料中的唯一識別符號。

同時,需要明確的是,因為HGNC只對人類基因進行命名,而且並不是所有的基因都有Official Symbol。所以如果基因缺少HGNC提供的Gene Symbol ,Entrez Gene資料庫中的Official symbol就會變成Gene Symbol,並且Gene Symbol的編號會變成LOC字首+Entrez ID,例如:LOC4333818
在這裡插入圖片描述

關於基因命名的組織委員會
除了人類之外,對於一些典型的模式物種而言,也有相關的命名委員會。小鼠(mouse)的基因命名是來源於MGNC(可訪問MGI資料庫),大鼠(rat)基因命名來源於RGNC(可訪問RGD資料庫),斑馬魚的基因命名來源於ZFIN。還有一些其它物種的基因命名,基本就來源於NCBI的Gene資料庫和Uniprot資料庫。如果有些基因這些資料庫裡都沒有命名,那麼一般會直接從一些典型的模式物種(例如小鼠,斑馬魚等)的同源基因命名中引進。


瞭解完HGNC之後,回到剛才的話題,在TP53的檢索結果接著向下看,會看到See related這一行,它提供了和TP53這個基因相關的外鏈資料庫的連線。即Ensembl ,MIM以及Vega 。
see related

Ensembl:ENSG00000141510 即Ensembl資料庫的ID編號,MIM:191170是來源於OMIM資料庫(Online Mendelian Inheritance in Man ,人類孟德爾遺傳線上資料庫)的編號。Vega:OTTHUMG00000162125來自Vega資料庫(Vertebrate Genome Annotation,脊椎動物基因組註釋 )
其中,Ensembl ID可以說是非常常見了,基本做生信的人都要接觸。所以,讓我們來詳細瞭解一下Ensembl資料庫!


Ensembl計劃

首先看看Ensembl是什麼

Ensembl基因組資料庫專案是歐洲生物資訊研究所和Wellcome Trust Sanger研究所之間的一個聯合科學專案,該專案於1999年啟動,以應對即將完成的人類基因組計劃。Ensembl旨在為遺傳學家,分子生物學家和其他研究我們自己的物種和其他脊椎動物和模式生物的基因組的研究人員提供集中資源。Ensembl是用於檢索基因組註釋資訊的幾種眾所周知的基因組瀏覽器之一。
同時,需要注意的是,Ensembl中的基因組註釋由兩部分組成:計算機自動註釋(例如全基因組的轉錄本註釋)以及人工註釋。人工註釋主要針對選定的物種(如:人類,小鼠,斑馬魚等等)。人工註釋由Havana(Human and Vertebrate Analysis and Annotation)小組來完成。(我們在gtf註釋檔案中看到的HAVANA指的就是他們!HAVANA小組最開始是在Sanger研究所,2017年的時候遷往EBI了)

提到Ensembl,還有2個大名鼎鼎的計劃也不得不提!那就是ENCODE和GENCODE

Ensembl與ENCODE以及GENCODE計劃之間的關係

Ensembl是ENCODE計劃的子專案。而GENCODE計劃(由Sanger研究所維護)則是ENCODE專案的衍生品,它的目標是為ENCODE專案提供可用的人類基因組和小鼠基因組註釋。Ensembl在ENCODE計劃中的作用是,為人類基因組的組裝提供計算機的自動註釋資訊,並且把這些自動註釋的資訊和來自HAVANA的人工註釋資訊進行合併。GENCODE中的人類和小鼠的基因組註釋和Ensembl資料庫是同步發行的。
關於GENCODE的詳細介紹,可以看本文最後的拓展閱讀。

OK,瞭解完Ensembl資料庫是做什麼的之後,我們就可以使用Ensembl資料庫來檢索感興趣的基因在基因組上的資訊了。
我們在Ensembl中進行檢索主要使用的是Ensembl Stable ID(也就是常說的Ensembl ID),例如:ENSG00000141510 。Ensembl ID也是有自己的命名規則的

Ensembl Stable ID的定義,格式,版本

Ensembl Stable ID是來源於Ensembl資料庫的編號系統。它的命名由三部分組成:[species prefix][feature type prefix][a unique eleven digit number]. (根據不同物種設定的字首+資料所指型別【例如,蛋白質,基因】+一段特定的數字),所以一個小鼠的基因在Ensmebl中的編號命名就應該是:ENSMUSG########### 。有時可以有不同的版本, 則在 Ensembl ID 後面加上小數點和版本號(例如:ENSG00000223972.5)。Ensembl Stable ID版本號的更替是遵循一定規則的,具體可看:https://asia.ensembl.org/info/genome/stable_ids/index.htmlhttps://asia.ensembl.org/info/genome/compara/stable_ids.html

常用的物種字首

字首 物種學名
ENSMUS Mus musculus (Mouse)
ENSRNO Rattus norvegicus (Rat)
ENSMZE Maylandia zebra (Zebra mbuna)
MGP_LPJ_ Mus musculus (Mouse LP/J)
FB Drosophila melanogaster (Fruitfly)
ENS Homo sapiens (Human)
其它

型別字首

字首 型別
E exon
FM Ensembl protein family
G gene
GT gene tree
P protein
R regulatory feature
T transcript

關於Ensembl,還有一點很重要,那就是它的資料是定期更新的!

Ensembl的資料更新
Ensembl的資料大概2-3個月會更新一次,每次釋出不同的版本的時候或者有什麼計劃安排,Ensembl都會在他們的部落格或者Face-book,Twitter上釋出訊息(牆內的同學可以訪問部落格)。每次資料更新的範圍涵蓋新物種、新的基因集註釋、新的變異資料等等。
到目前為止Ensembl的資料版本已經發布到94版了(2018年10月)
ensembl version

如果想了解詳細的版本資訊和不同版本的資料可以訪問(http://asia.ensembl.org/info/website/archives/index.htmlftp://ftp.ensembl.org/pub/)

既然資料更新了,那就有一個非常重要的問題,儲存在Ensembl資料庫中的Ensembl Stable ID是否會發生變動?
OK,畢竟是大牛們做的專案,他們早就替我們想好啦。
Ensembl Stable ID 名副其實的“Stable”,一旦被分配之後,是儘可能的保持穩定不更改的。但是也有不穩定的情況存在:

一般情況下,如果某個基因資料發生一些小的改動,(例如某個基因對應的轉錄本資訊發生變化),Ensembl Stable ID是不會變動的。但是Stable ID後面的Version會變化,就是在Ensembl ID 後面加上小數點和版本號。比如說:ENSG00000223972.5 。
不一般的情況下,例如基因組組裝序列的一些改變較大,或者基因組註釋的更新影響了某個基因的整體模式。這時,我們的Ensembl才會分配新的Ensembl Stable ID啦!
目前蛋白質家族的ID(fam),Ensembl EST基因的ID(ENSESTG)和 Genscan的ID (GENSCAN) 都是不穩定的。所以如果有小夥伴用了這些資料的Ensembl ID要注意保持這些ID的實時更新喔!

如果我們想看自己感興趣的Gene在Ensembl中是否發生過ID變動,我們應該怎麼做呢? OK,Ensembl是非常全面噠!

ID歷史版本轉換
Ensembl非常貼心的為我們提供了ID History Converter工具幫助使用者進行ID的新舊版本轉換。有些資料的record裡面,會有ID History一欄,幫助我們檢視ID目前的版本和歷史版本。例如:ENSG00000139618 的記錄裡就有
在這裡插入圖片描述


好啦,關於Ensembl和Ensembl ID的介紹就到這裡,瞭解完Ensembl之後,我們接著向下看,發現有一個RefSeq status REVIEWED
在這裡插入圖片描述

RefSeq status用於指明這個基因記錄所對應的狀態,REVIEWED說明它已經被專家稽核。來看看RefSeq資料庫

NCBI非冗餘序列資料庫-RefSeq

RefSeq資料庫,即RefSeq參考序列資料庫,是美國國家生物資訊科技中心(NCBI)提供的具有生物意義上的非冗餘的基因和蛋白質等片段序列的資料庫。
RefSeq的序列資料來源於大名鼎鼎的INSDC(International Nucleotide Sequence Database Collaboration,國際核苷酸序列資料庫聯盟),所以RefSeq非常權威和全面!

要知道現在是大資料時代,有非常多的資料,很多冗餘的資訊是沒有用處的,而RefSeq能提供非冗餘的序列,真的是非常有用了!我們來看看怎麼在RefSeq中進行檢索吧

RefSeq 有一套特殊的 Accesion Number(就是我們通常用的RefSeq ID)讓我們來進行檢索。RefSeq資料庫中的Accession number和GenBank資料庫中的AC號格式不同。

RefSeq資料庫Accession number的格式以兩個字母開頭,後跟一個下劃線和六個或多個數字開頭,例如:
NT_123456 constructed genomic contigs
NM_123456 mRNAs
NP_123456 proteins
NC_123456 chromosomes

ID的常見字首是

字首 型別 說明
AC_ Genomic Complete genomic molecule, usually alternate assembly
NC_ Genomic Complete genomic molecule, usually reference assembly
NG_ Genomic Incomplete genomic region
NW_ Genomic Contig or scaffold, primarily WGS
NZ_ Genomic Complete genomes and unfinished WGS data
NM_ mRNA Protein-coding transcripts (usually curated)
NR_ RNA Non-protein-coding transcripts
NP_ Protein Associated with an NM_ or NC_ accession
其它

所以瞭解這些之後,我們就可以快樂的暢遊在RefSeq的序列資料中了!

同時,RefSeq的資料是每日更新的,所以大大的保障了我們科研的效率和及時性!對於人類的RefSeq而言,每條RefSeq後面都會有一個COMMENT,COMMENT會顯示這條RefSeq的狀態。主要有這些狀態:MODEL(說明是自動被NCBI提供的,沒有被稽核過),INFERRED(由序列分析預測得到,沒有經過實驗驗證),PREDICTED(沒有經過人工稽核),PROVISIONAL,REVIEWED(已被人工稽核),VALIDATED(已經過初步審查,但還沒有過最後審查)以及WGS。
所以我們在用RefSeq的序列時也要注意看看它的Status喲,看它是否是經過稽核的!

瞭解完RefSeq之後,我們也來看看其它著名的核酸序列資料庫吧!


NCBI核酸序列資料庫-GenBank

談到核酸序列資料庫,就不得不提NCBI的GenBank了

GenBank是由美國國立生物技術資訊中心(NCBI)維護的一級核酸序列資料庫。GenBank資料庫中也包括部分蛋白質序列,源於核酸序列註釋結果。資料每天更新,每年發行六版release 。GenBank,EMBL和DDBJ同時組成了國際核苷酸序列資料庫聯盟,讓核酸的序列資訊得以共享,三大資料庫的資料資源都是每天進行更新和交換。

GenBank的資料來源渠道主要有三種:1. 科研工作者提交的序列資料 2.與其他資料機構協作交換的資料 3.其他從測序中心獲得的高通量資料。再來看一組數字

GenBank的資料來源於260,000多個物種
GenBank中約有13%的序列來自於人類
資料量排名第一的物種是Homo sapiens(人類),其次是小鼠
rank
目前GenBank的資料已經發布到第227版本(截至2018年8月)

可見我們的科研工作者對人類方面的研究是非常多的!所以資料很多。
GenBank中既然有這麼多資料,如果我們想在GenBank中進行序列檢索,應該怎麼做呢?

可以有兩種方式在GenBank中進行檢索:(1)泛式檢索:例如直接輸入感興趣序列所在基因的名稱或者提交作者的姓名等 (2)特殊識別符號檢索:即GI號和Genbank的Accession number。

第一種檢索方式非常簡單,這裡就不再贅述。需要我們談談的是,第二種檢索方式中的GI號和Accession number(註冊號/登陸號)是什麼含義

GI number: GI號(GenInfo Identifier,有時用小寫字母“gi”表示)是核苷酸序列的序列標識號,由一系列簡單的數字組成。它們被連續分配給NCBI處理的每個序列記錄,如果一個序列以任何方式改變,那麼一個新的GI號將被分配。需要注意的是,GI號和序列的Accession number沒有什麼關聯

GenBank-Accession Number:Accession Number又叫做註冊號/登入號,像GI號一樣,它也是唯一的序列識別符號。但是與GI號不同的是,AC號一旦分配就不會改變了。一個AC號通常是字母和數字的組合,例如一個字母后跟5位數(如U12345)或兩個字母后跟6位數(如AF123456)。

好啦,所以GI號和Accession number都是GenBank資料庫中對某條序列進行標識的識別符號。這裡呢,還需要注意兩個概念,那就是GI號和Accession Number.Version.我們的GI號和Accession Number.Version都是可以用來追蹤一條序列的演化的。那麼這兩種識別符號之間又有什麼關係呢

GI號和Accession Number.Version
NCBI的GI號和Accesion Number.Version是兩種不同系統的識別符號,它們是平行使用的。當序列的資料改變或升級時,將會分配一個新的GI number。Accession number主體編號不會改變,但是它所對應的版本(Accession number.Version)會隨著增加。如NM_008261.1–>NM_008261.2(GI number:6680238–>46575915)。

此外,關於GI號的使用,還有一段不得不說的歷史。。。來看看吧:

歷史
GI(GenInfo Identifier)號是NCBI很早就用來作為序列識別符號的編號系統。但是國際核酸序列資料庫聯盟(GenBank、EMBL和DDBJ)剛成立時並沒有統一的使用GI號,而是使用它們各自資料庫內部的編號來追蹤序列。後來,國際核酸序列資料庫聯盟(GenBank、EMBL和DDBJ)決定統一使用一個編號來唯一標識序列,於是它們創造了NID(核酸序列標識號)和PID(蛋白質序列標識號)。直到1999年12月,NID和PID的叫法才中斷使用,對序列的唯一識別符號又恢復成我們現在所熟知的GI號。
同時,1992年的時候國際核苷酸序列資料庫聯盟(GenBank、EMBL和DDBJ)開始啟用Accession Number.Version系統,確保了國際的通用性,並且對序列的標識性與追蹤性更加地方便,Accession Number.Version與GI number平行執行。
想了解更多詳細的GI歷史以及GI和Accession number.version的區別可見:https://www.ncbi.nlm.nih.gov/genbank/sequenceids/


好啦,到此為止,我們就學習完GenBank資料庫了。學完核酸序列資料庫之後,下面,我們再來談談蛋白質序列資料庫-Uniprot。


蛋白質序列資料庫-Uniprot

UniProt是Universal Protein 的英文縮寫,是一級蛋白質序列資料庫。
Uniprot整合了三大資料庫(Swiss-Prot,TrEMBL和PIR-PSD)的資料,是目前國際上最廣泛使用的蛋白質資料庫(沒有之一)。

大多數情況,我們檢索蛋白質序列資訊,都是去的UniprotKB,所以掌握UniprotKB的搜尋技巧就很重要啦!瞭解一下UniprotKB

Uniprot中的UniprotKB(UniProt Knowledgebase)是收集蛋白質功能資訊的中心樞紐,具有準確,一致,豐富的註釋。UniprotKB主要由兩部分組成:UniProtKB/Swiss-Prot (包含檢查過的、手工註釋的條目) 和 UniProtKB/TrEMBL (包含未校驗的、自動註釋的條目)。

由於UniProtKB/TrEMBL中的條目是由計算機自動註釋的,所以我們可以看到UniProtKB/TrEMBL的資料數量遠遠超過了UniProtKB/Swiss-Prot中的資料數量。

瞭解完基礎背景知識之後,我們來看看UniprotKB中的編號ID是什麼樣的吧

UniprotKB中主要有兩種編號系統:Accession number和Entry name
由於UniprotKB包括了Swiss-Prot(人工註釋)和TrEMBL(計算機註釋),所以entry name有兩種命名方式:UniprotKB/Swiss-Prot entry name和UniprotKB/TrEMBL entry names 。
UniprotKB/Swiss-Prot entry name
UniProt 中錄入的資料都被分配了一個唯一的 Entry name。UniprotKB/Swiss-Prot Entry name可以由多達11個的大寫字母+數字組成。它的命名方式可以表示為X_Y的形式。X是蛋白質或基因名稱的縮寫(並不是標準的Gene name),最多可以由五個字元組成。“—”表示下劃線。Y代表物種的編碼,最多也是隻能由五個字元組成(通常由屬名的前三個字母和種名的前兩個字母組成)。
例如:
PURQ_ZYMMO
INS_HUMAN
UniprotKB/TrEMBL entry names
UniProtKB/TrEMBL的Entry name 由多達16個大寫字母數字字元組成,其命名形式類似於UniProtKB/Swiss-Prot,也是X_Y的形式。其中,X與登入號(Accession number)相同,由6或10個字母數字字元組成。“—”代表下劃線。Y代表物種的編碼,最多也是隻能由五個字元組成。因為TrEMBL中的蛋白質資料太多,不可能所有的條目都人工進行物種編碼。所以TrEMBL啟用了“虛擬編碼”來對物種進行分類。這些虛擬的物種編碼都是以數字9為字首,舉例來說,如下:

Mnemomnic code Taxonomic identifier Scope
9BACT 2 Bacteria
9CNID 6073 Cnidaria
9FUNG 4751 Fungi
9REOV 10880 Reoviridae

Accession Number
UniprotKB中的每個條目都會分配一個唯一的Accession Number。accession number不會隨資料的更新而變化,只有資料被刪除的時候,accession number才會被刪除。所以它是非常穩定的識別符號,相當於資料庫中的主鍵。
Uniprot的登入號(accession number)由6個或者10個字母數字的組合構成。構成方式是:
[OPQ][0-9][A-Z0-9]{3}[0-9]|[A-NR-Z]0-9{1,2}
例如:A2BC19, P12345, A0A022YWF9

剛才我們看到了UniprotKB有兩種編號系統,那麼這兩種編號之間有什麼關係和區別呢?

Entry name與Accession Number的關係和區別
提交資料到UniprotKB之後,每個資料都會被分配一個Accession Number(AC號),這個AC號是唯一的。為了減少資料冗餘,如果將UniprotKB中的多個數據合併成一個,AC號仍然是保持不變的。Entry name也是每個資料唯一具有的識別符號,它可以展示資料的生物學資訊。但是Entry name並不是穩定存在的,比如說我們要將TrEMBL中的資料轉入Swiss-Prot,那麼我們需要變更資料的Entry name,此時同一個資料的Entry name就發生了改變,但是它的AC號仍然保持不變。這就是他們之間的區別!
還有需要注意的是,一個數據可能有兩個或者多個accession number 。原因主要有兩個:(1)當合並兩個或多個數據條目時,保留所有資料條目的登入號。第一個AC編號稱為“主要AC編號”,其他編號稱為“次要AC編號”。編號排序是按字母數字順序排列的。
(2)如果現有資料條目被分割為兩個或多個數據條目(“拆分”),新的“主要”登入號將歸屬於所有分裂的條目,而所有原始登入號將保留為“次要”登入號。例如:P29358 被拆分成 P68250 和 P68251 。P68250 和 P68251的次級登入號均為P29358 。

所以,UniprotKB建議,我們最好使用資料的主登入號作為資料引用的方式(不是Entry name ,也不是二級登入號),因為主登入號是唯一併且穩定存在的資料識別符號。

瞭解完AC號和Entry name之後,以UniProtKB/Swiss-Prot為例,我們來看看一組數字

UniProtKB/Swiss-Prot資料小統計
截至2018年9月,UniProtKB/Swiss-Prot中共有558,590個Entry name,可見Entry name數量隨時間是迅猛增長的
entry name
在UniProtKB/Swiss-Prot的資料中,植物佔很大一部分,人類資料也佔比很多!
ratio
蛋白質序列長度分佈在0-500左右,最短的蛋白質序列長度只包含2個氨基酸,最長的蛋白質序列包含35,213個氨基酸
length
截至2018年9月,UniProtKB/Swiss-Prot 包含 558590條註釋條目,UniProtKB/TrEMBL包含126780198條註釋條目。


Uniprot確實很厲害!這麼多資料,以後我們要是找蛋白質資訊,都去Uniprot啦!
資料庫和ID介紹到這裡,基本就快結束啦,最後,我們再學習學習GEO


GEO資料庫

基因表達資料庫(Gene Expression Omnibus,GEO)隸屬於美國國立衛生研究院的NCBI。是當今最大、最全面的公共基因表達資料資源。GEO資料庫的資料由兩部分構成:
使用者提交的原始資料:GEO Platform (GPL),GEO Sample (GSM),GEO Series (GSE)。其中,GSE=GPL(Platform)+GSA(Sample)
GEO資料庫整理後的資料:Data set ,Profile

下面我們簡單介紹一下GPL,GSM和GSE

GEO Platform(GPL):平臺數據包含陣列或序列以及陣列平臺的簡要描述。
每個平臺都分配了一個特有的登入號用於檢索(格式是:GPL+數字編號),例如:平臺GPL341 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL341

GEO Sample (GSM) :樣本資料描述了每個樣本的操作環境,處理方法和分離出的各個成分的丰度測量。每個樣本都分配了一個特有的登入號用於檢索(格式是:GSM+數字編號)例如:樣本GSM12793 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSM12793

GEO Series (GSE) :GSE=GPL(Platform)+GSA(Sample)
系列資料將一系列相關的樣本聯絡起來,提供了整個研究的關注點和描述,也包含了描述提取資料、簡要結論和分析的表格。每個系列都分配了一個特有的登入號用於檢索(格式是:GSE+數字編號)例如:系列GSE830 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE830

看到這裡,我們對主流生信資料庫的ID規則和資料庫的基本情況也就有所瞭解啦,之後想要進階還需要不斷學習和努力。關於ID轉換的部分本文沒有講述,其實這也是一個大坑,等未來再繼續填坑!


拓展閱讀-GENCODE計劃

什麼是GENCODE計劃呢,我們首先來看一段歷史

2003年9月,美國國家人類基因組研究所(NHGRI)發起了一個名為ENCODE((DNA元件百科全書))的公共研究計劃。專案的目標是識別人類基因組序列中的所有功能元件。GENCODE計劃屬於ENCODE計劃的衍生品,由Sanger研究所進行維護。2003年的時候GENCODE獲得了第一批資助,當時GENCODE的目標是對人類基因組中的功能元件進行註釋。GENCODE小組在2013年時獲得了第二次資助,以繼續他們的人類基因組註釋工作,並將GENCODE擴充套件到包括小鼠基因組註釋。2017年的時候GENCODE又獲得了一批資助,用以完成小鼠基因和人類基因組功能元件的註釋工作。

所以GENCODE計劃目前的主要工作就是對人類和小鼠的基因組進行功能元件註釋。

上文介紹Ensembl的時候也提到過,GENCODE的註釋和Ensembl註釋的關係是:GENCODE註釋來源於havana團隊人工完成的基因註釋和Ensembl計算機自動完成的基因註釋的合併。所以我們檢視gtf檔案的時候,會發現有“HAVANA"和"ENSEMBL"這兩個名稱交替出現。HAVANA表示註釋來自於人工。ENSEMBL表示註釋來源於計算機程式的自動註釋。

從GENCODE提供的資訊來看,人類一共有58721個基因(包括假基因),目前大概有19940個蛋白質編碼基因,16066個長非編碼RNA的基因,等等。(如下圖)
human

GENCODE中,小鼠一共有54446,其中有21969個蛋白質編碼基因(比人類多),12840個長非編碼RNA的基因,等等。(如下圖)
mouse

GENCODE的註釋檔案的發行版本和Ensembl是一致的,目前GENCODE中的人類gtf註釋已經發布到version 29了,小鼠是釋出到version 19版本了

更多想要了解的,可以點選:https://www.gencodegenes.org/