1. 程式人生 > >生物基礎知識---CDS,基因,Matlab生物資訊工具箱

生物基礎知識---CDS,基因,Matlab生物資訊工具箱

1.CDS(Sequence coding for aminoacids in protein)蛋白質編碼區

2.每個基因中都有編碼區與非編碼區,其中真核生物編碼區又含有外顯子與內含子,但真核生物的基因中也有無內含子的例外.如組蛋白基因和干擾素基因就沒有內含子.編碼區為編碼蛋白質的有效基因片段.非編碼區不編碼蛋白質。在這裡插入圖片描述  
3.編碼區是細胞DNA的一部分,基因分為:編碼區,非編碼區。編碼區是指能夠轉錄信使RNA的部分,能夠合成相應的蛋白質,而非編碼區是不能夠轉錄信使RNA的DNA結構。但是它能夠調控遺傳資訊的表達。  
4.真核生物的DNA中的基因是由編碼區和非編碼區組成的,其中編碼區是由外顯子和內含子組成的,但是其中內含子又是非編碼序列

,所以說真核細胞基因結構中,非編碼區和內含子是非編碼序列 。  
5.內含子屬於編碼區。含有內含子的基因能轉錄出前體RNA,再由內含子轉錄出來的部分進行自我切割,才得到成熟的mRNA,沒有內含子也就沒有自我切割  
6.原核細胞只有編碼區和非編碼區!沒有內含子和外顯子之分。真核生物才有內含子和外顯子。

7.MATLAB7_X生物資訊工具箱的應用_基因序列分析_一_劉新星
https://wenku.baidu.com/view/866890f981eb6294dd88d0d233d4b14e85243ef4.html
MATLAB+7.X生物資訊工具箱的應用—序列比對
https://wenku.baidu.com/view/370c4de9551810a6f5248600.html


在這裡插入圖片描述
matlab學習–bioinformatics toolbox學習之一
http://blog.sina.com.cn/s/blog_5ecfd9d90100cm03.html

8.基因密度就是指基因序列佔總序列的多少

9.通過已知基因或與已知基因有關的基因計算得來的基因密度推測未知基因密度的基因組基因數目,通常只能得到一個最小值,這個值稱為最小基因數,真正基因數目往往大得多。方法為:基因分離鑑定
10. 基因

(1)概念:每種生物有很多個性狀(如人有成千上萬個),而每個細胞中的DNA數量是有限的,如人的體細胞的核中有46個DNA分子,因此每個DNA分子實際上控制著多個性狀。這樣,一個DNA分子實際上分為若干個功能片段分別控制著不同的性狀,每個功能片段稱為一個基因,從而得出:基因是控制生物性狀的遺傳物質的功能單位和結構單位,是有遺傳效應的DNA片段


(2)化學本質:基因是有遺傳效應的DNA片段
(3)存在場所(載體):真核生物主要位於染色體上(其中數量關係為:未複製時1/1複製後1/2)其次位於細胞質中(包括線粒體和葉綠體)
(4) ***遺傳資訊:基因中脫氧核苷酸排列順序代表著遺傳資訊***
(5)基因功能:遺傳物質結構和功能的基本單位;通過複製把遺傳資訊傳給下一代;通過轉錄和翻譯使遺傳資訊以一定的形式反映到蛋白質分子結構上來,從而使後代表現出與親代相似的性狀
11.基因重組的定義:造成基因型變化的核酸的交換過程。包括髮生在生物體內(如減數分裂中異源雙鏈的核酸交換)和在體外環境中用人工手段使不同來源DNA重新組合的過程。不同性狀的基因重新組合的現象,發生在有性生殖的減數分裂第一次分裂的四分體時期,位於同源染色體非姐妹染色單體上的等位基因隨著非姐妹染色單體得交叉互換髮生基因重組;減數分裂第一次分裂的後期,非同源染色體上的非等位基因隨非同源染色體而重組;基因工程把不同生物的基因人為的組合在一起,也是基因重組
12.組成簡單生命最少要265到350個基因(這涉及到了基因工作組的力量,人類的基因工作組與果蠅的基本相似).
13. 基因分類

(一) 結構基因:基因中編碼RNA或蛋白質的鹼基序列。
(1)原核生物結構基因:連續的,RNA合成不需要剪接加工;
(2)真核生物結構基因:由外顯子(編碼序列)和內含子(非編碼序列)兩部分組成。
(二)非結構基因:結構基因兩側的一段不編碼的DNA片段(即側翼序列),參與基因表達調控。
(1)順式作用元件:能影響基因表達,但不編碼RNA和蛋白質的DNA序列;
其中包括:
a .啟動子:RNA聚合酶特異性識別結合和啟動轉錄的DNA序列。有方向性,位於轉錄起始位點上游。
b.上游啟動子元件:TATA盒上游的一些特定DNA序列,反式作用因子可與這些元件結合,調控基因的轉錄效率。
c.反應元件:與被啟用的資訊分子受體結合,並能調控基因表達的特異DNA序列。
d.增強子:與反式作用因子結合,增強轉錄活性,在基因任意位置都有效,無方向性。
e.沉默子:基因表達負調控元件,與反式作用因子結合,抑制轉錄活性。
f.Poly(A)加尾訊號:結構基因末端保守的AATAAA順序及下游GT或T富含區,被多聚腺苷酸化特異因子識別,在mRNA 3′端加約200個A。
(2)反式作用因子:能識別和結合特定的順式作用元件,並影響基因轉錄的一類蛋白質或RNA。 [2]

14.基因有兩個特點,一是能忠實地複製自己,以保持生物的基本特徵;二是在繁衍後代上,基因能夠“突變”和變異,當受精卵或母體受到環境或遺傳的影響,後代的基因組會發生有害缺陷或突變。絕大多數產生疾病,在特定的環境下有的會發生遺傳。也稱遺傳病。在正常的條件下,生命會在遺傳的基礎上發生變異,這些變異是正常的變異。
15.含特定遺傳資訊的核苷酸序列,是遺傳物質的最小功能單位。除某些病毒的基因由核糖核酸(RNA)構成以外,多數生物的基因由脫氧核糖核酸(DNA)構成,並在染色體上作線狀排列。
16.**基因一詞通常指染色體基因**。在真核生物中,由於染色體在細胞核內,所以又稱為核基因。位於線粒體和葉綠體等細胞器中的基因則稱為染色體外基因、核外基因或細胞質基因,也可以分別稱為線粒體基因、質粒和葉綠體基因
原核生物的基因組是一個單純的DNA或RNA分子,因此又稱為基因帶,通常也稱為它的染色體。
17.基因的表達過程是將DNA上的遺傳資訊傳遞給mRNA,然後再經過翻譯將其傳遞給蛋白質。在翻譯過程中tRNA負責與特定氨基酸結合,並將它們運送到核糖體,這些氨基酸在那裡相互連線形成蛋白質。這一過程由tRNA合成酶介導,一旦出現問題就會生成錯誤的蛋白質,進而造成災難性的後果。值得慶幸的是,tRNA分子與氨基酸的匹配非常精確
18.基因變異是指基因組DNA分子發生的突然的可遺傳的變異。從分子水平上看,基因變異是指基因在結構上發生鹼基對組成或排列順序的改變。基因雖然十分穩定,能在細胞分裂時精確地複製自己,但這種穩定性是相對的。在一定的條件下基因也可以從原來的存在形式突然改變成另一種新的存在形式,就是在一個位點上,突然出現了一個新基因 [4] ,代替了原有基因,這個基因叫做變異基因。於是後代的表現中也就突然地出現祖先從未有的新性狀。例如英國女王維多利亞家族在她以前沒有發現過血友病的病人,但是她的一個兒子患了血友病,成了她家族中第一個患血友病的成員。後來,又在她的外孫中出現了幾個血友病病人。很顯然,在她的父親或母親中產生了一個血友病基因的突變。這個突變基因傳給了她,而她是雜合子,所以表現型仍是正常的,但卻通過她傳給了她的兒子。基因變異的後果除如上所述形成致病基因引起遺傳病外,還可造成死胎、自然流產和出生後夭折等,稱為致死性突變;當然也可能對人體並無影響,僅僅造成正常人體間的遺傳學差異;甚至可能給個體的生存帶來一定的好處
19.基因重組是由於不同DNA鏈的斷裂和連線而產生DNA片段的交換和重新組合,形成新DNA分子的過程。
20.基因突變(gene mutation)一個基因內部可以遺傳的結構的改變,又稱為點突變,通常可引起一定的表型變化 。廣義的突變包括染色體畸變,狹義的突變專指點突變。實際上畸變和點突變的界限並不明確,特別是微細的畸變更是如此。野生型基因通過突變成為突變型基因。突變型一詞既指突變基因,也指具有這一突變基因的個體。

21.基因就是編譯氨基酸的密碼子,因此,密碼子的起源就是基因的起源。除了少數的不同之外,地球上已知生物的遺傳密碼均非常接近;因此根據演化論,遺傳密碼應在生命歷史中很早期就出現。
22.構成DNA的鹼基有4種,而一個氨基酸由3個鹼基所決定,這樣鹼基的理論組合有4^3 =64種。實際上還有3個終止密碼子(不編碼氨基酸),因此,共有61個編碼氨基酸的密碼子。可是,構成蛋白質的氨基酸只有20種,這樣,大多數氨基酸都有幾個三聯體密碼(2、3、4或6個不等),這就是所謂的簡併性,編碼同一種氨基酸的密碼子互稱同義密碼子,已知同義密碼子在生物界中被使用的頻率不盡相同。這種簡併性可能起因於相似的立體化學特徵
**一般來說,同義密碼子的第1、2位鹼基大多是相同的,只是第3位不同。譬如,ACU、ACC、ACA和ACG都編碼蘇氨酸,UGU、UGC、UGA和UGG都編碼纈氨酸。這樣,生物體對第3位鹼基的點突變就具有更強的耐受性,或者說,同義密碼子越多,相應的遺傳穩定性越大。
23.還有三種核糖核酸——信使RNA(mRNA)、核糖體RNA(rRNA)和轉運RNA(tRNA),分別負責(當然還需要蛋白酶的協作)遺傳資訊的轉錄、氨基酸的轉送和蛋白質的組裝。已知的tRNA共有61種,即每個能編碼氨基酸的密碼子都有一個相對應的tRNA(圖4)。而一種tRNA只能攜帶一種氨基酸(如丙氨酸tRNA只攜帶丙氨酸),這樣,一種氨基酸可被不止一種的tRNA所攜帶。DNA雙螺旋中的鹼基配對嚴格:A—T,G—C,但tRNA反密碼子與mRNA的密碼子之間的配對偶爾會出現擺動(wobble)現象。

在這裡插入圖片描述
24.揭開遺傳密碼子的起源之謎
http://blog.sciencenet.cn/home.php?mod=space&uid=1475614&do=blog&id=926687
&&人類有二萬多基因,而有的細菌只有幾百個基因。這種差異不僅僅在遠緣物種中體現,即使在進化關係很近、分歧年代很近的近緣物種中,基因的種類和數目也不盡相同,這說明生物在進化過程中伴隨著基因組大小和基因數目的變化。
&&新的基因產生的方式有基因重複(gene duplication),逆轉座(retroposition),外顯子重排(exon shuffling),基因分裂與融合(gene fission and fusion)以及基因水平轉移(gene lateral transfer)等。
&&內含子和外顯子。人們在研究小雞卵清蛋白基因時發現其轉錄形成的mRNA只有該基因長度的1/4,其原因是基因中一些間隔序列的轉錄物在RNA成熟過程中被切除了。這些間隔序列叫內含子,基因中另一些被轉錄形成RNA的序列叫外顯子。小雞的卵清蛋白基因中至少含7個內含子。因而從基因轉錄效果看,基因由外顯子和內含子構成。
&&密碼子(codon)是指信使RNA分子中每相鄰的三個核苷酸編成一組,在蛋白質合成時,代表某一種氨基酸的規律。
&&密碼子(condon):mRNA(或DNA)上的三聯體核苷酸殘基序列,該序列編碼著一個指定的氨基酸 ,tRNA 的反密碼子與mRNA的密碼子互補。
&&起始密碼子(iniation codon):指定蛋白質合成起始位點的密碼子。最常見的起始密碼子是蛋氨酸密碼:AUG (甲硫氨酸)
&&終止密碼子(termination codon):任何tRNA分子都不能正常識別的,但可被特殊的蛋白結合並引起新合成的肽鏈從翻譯機器上釋放的密碼子。存在三個終止密碼子:UAG ,UAA和UGA。(不能決定任何氨基酸)
&&特點
①. 遺傳密碼子是三聯體密碼:一個密碼子由信使核糖核酸(mRNA)上相鄰的三個鹼基組成。② 密碼子具有通用性:不同的生物密碼子基本相同,即共用一套密碼子。
③ 遺傳密碼子無逗號:兩個密碼子間沒有標點符號,密碼子與密碼子之間沒有任何不編碼的核苷酸,讀碼必須按照一定的讀碼框架,從正確的起點開始,一個不漏地一直讀到終止訊號。
④ 遺傳密碼子不重疊,在多核苷酸鏈上任何兩個相鄰的密碼子不共用任何核苷酸。
⑤ 密碼子具有簡併性:除了甲硫氨酸和色氨酸外,每一個氨基酸都至少有兩個密碼子。這樣可以在一定程度內,使氨基酸序列不會因為某一個鹼基被意外替換而導致氨基酸錯誤。
⑥ 密碼子閱讀與翻譯具有一定的方向性:從5’端到3’端。
⑦有起始密碼子和終止密碼子,起始密碼子有兩種,一種是甲硫氨酸(AUG),一種是纈氨酸(GUG),而終止密碼子(有3個,分別是UAA、UAG、UGA)沒有相應的轉運核糖核酸(tRNA)存在,只供釋放因子識別來實現翻譯的終止。
在信使RNA中,鹼基程式碼A代表腺嘌呤,G代表鳥嘌呤,C代表胞嘧啶,U代表尿嘧啶(注意:RNA與DNA不同,RNA沒有胸腺嘧啶T,取而代之的是尿嘧啶U,按照鹼基互補配對原則,U與A形成配對)。

25.遺傳資訊是指DNA分子中基因上的脫氧核苷(鹼基)排列順序密碼子是指信使RNA上決定一個氨基酸的三個相鄰鹼基的排列順序,反密碼子是指轉運RNA上的一端的三個鹼基排列順序。其聯絡是:DNA(基因)的遺傳資訊通過轉錄傳遞到信使RNA上,轉運RNA一端攜帶氨基酸,另一端反密碼子與信使RNA上的密碼子(鹼基)配對。

26.轉錄(Transcription)是遺傳資訊從DNA流向RNA的過程。即以雙鏈DNA中的確定的一條鏈(模板鏈用於轉錄,編碼鏈不用於轉錄)為模板,以ATP、CTP、GTP、UTP四種 [1] 核苷三磷酸為原料,在RNA聚合酶催化下合成RNA的過程。在體內,轉錄是基因表達的第一階段,並且是基因調節的主要階段。轉錄可產生DNA複製的引物,在反轉錄病毒感染中也起到重要作用

舉例

DNA: 5’-ATCGAATCG-3’ (將此為非模板鏈)
3’-TAGCTTAGC-5’ (將此為模板鏈)
轉錄出的 mRNA: 5’-AUCGAAUCG-3’
可看出只是將非模板鏈的T改為U,所以非模板鏈又叫有義鏈。這也是中心法則和鹼基互補配對原則的體現。
DNA模板被轉錄方向是從3′端向5′端;RNA鏈的合成方向是從5′端向3′端。

以RNA鏈為模板,經逆轉錄酶(即依賴於RNA的DNA聚合酶)催化合成DNA鏈,叫做逆轉錄。這種機制在RNA腫瘤病毒中首先發現。
RNA聚合酶是以DNA為模板的RNA聚合酶,也稱轉錄酶。

27.我在NCBI上查到一個基因的序列,上面寫有CDS 2154…3125; mRNA <2154…>3125
CDS(coding sequence) 序列是編碼序列,是用來編碼蛋白質的那段序列。
2154既不是轉錄起始位點,也不是翻譯起始位點,而是指編碼序列的起始密碼子存在的位點,即編碼這個蛋白質的DNA序列。
在這裡插入圖片描述