電子科技大學生物資訊學 重點
一:
簡答:研究內容:
n 資料管理層面上:開發、設計一系列相關的工具,能夠方便有效的獲取、管理以及使用各種型別的資料和資訊。
n 演算法開發層面上:開發新的演算法及統計學的方法來揭示大規模資料之間的聯絡。
n 研究物件層面上:分析和解釋各種型別的生物學資料,包括核酸、氨基酸序列、蛋白質功能結構域以及蛋白質三級結構等。
- 二十世紀五十年代,為儲備期
- 二十世紀六十至七十年代,為萌芽期。
- 二十世紀八十年代,為形成期。
- 1990s,高速發展期
二:
界(kingdom)門(phylum) 綱(
四大“模式生物”:酵母、線蟲、果蠅、小鼠
大腸桿菌:460萬bp,秀麗線蟲9.7Mbp,果蠅1.8億bp 擬南芥1.0×108 bp 小鼠30億 水稻4.3億bp (要記住那個比那個大/小?)
四種:小分子:單糖、雙糖,脂肪酸,核苷酸,氨基酸
蛋白質的空間結構
一級結構(primary structure)
多肽鏈中氨基酸數目、種類和線性排列順序
二級結構(secondary structure)
氫鍵形成a-螺旋(a -helix)
鏈間形成b-摺疊(b-sheet)
三級結構(tertiary structure)
肽鏈進一步沿多方向盤繞成緊密的近似球狀結構
四級結構(quaternary structure)
具有特定構象的肽鏈進一步結合,並在空間相互作用
1870年,F. Miescher從膿細胞的核中分離,由於呈酸性,故命名為核酸。
中心法則開始:DNA——RNA
三-
1、檢索方法:
(1)追溯法:通過已知文獻後附有的參考文獻中提供的線索來查詢文獻。
(2)常用法:利用各種檢索工具來查詢文獻。
(3)迴圈法:是將常用法和追溯法交替使用的一種綜合文獻檢索方法。
(4)瀏覽法:是從本專業期刊或其它型別的原始文獻中直接查閱文獻資料。
3、檢索過程:
l (1)分析研究課題
l (2)制定檢索策略
l (3)查詢文獻線索
l (4)獲得原始文獻
- 1. PubMed的特性
n PubMed is NCBI gateway to MEDLINE
n 收錄了70多個國家4600多種主要生物醫學期刊的摘要和部分全文。
n 最早的文獻可追溯至20世紀50年代。最新的文獻幾乎就在此時此刻。
n 部分出版商通過PubMed提供文獻的全文(連結),而這些全文中有些是可以免費登入的。據統計,NCBI目前共有130多種期刊約10萬篇的免費全文。
1. 鳥槍法( Shot-gun sequencing)
¡ 方法:藉助物理或化學的手段將整個基因組隨機打斷成一定大小的片段進行測序,再根據序列間的重疊關係進行計算機排序與組裝,確定它們在基因組中的位置。
¡ 適用範圍:主要用於重複序列少、相對簡單的原核生物基因組的測序工作。不適用於分析較大的、更復雜的基因組。
¡ 優點:速度快、簡單易行、成本低
¡ 缺點:
¡ 序列的拼接組裝比較困難,尤其是在重複序列多的區域難度更大。
¡ 受文庫隨機性和測序覆蓋度的影響,某些區域間會有較大的空洞(GAP)。
¡ 由於缺少基因組的物理圖譜,有些序列難以定位,成為遊離片段。
2. 克隆重疊群法(clone contig sequencing)
¡ 方法:先將染色體打成比較大的片段(幾十-幾百Kb),利用分子標記將這些大片段排成重疊的克隆群,分別測序後拼裝。需要繪製物理圖譜,以鳥槍法為基礎。
¡ 適用範圍:較大的、更復雜的基因組。
Short-gun Clone contig
不需背景資訊 構建克隆群
(遺傳、物理圖譜)
時間短 需要幾年的時間
得到的是草圖(Draft) 得到精細圖譜
原核基因組 較大的基因組
成本低 成本高
四、資料提交-單機版軟體:Sequin是獨立的程式,由NCBI(美國國家生物情報中心)開發,用來向三大核酸資料庫GenBank, EMBL,DDBJ 查詢與提交序列資料。
核酸資料庫分級:
在一級資料庫、實驗資料和理論分析的基礎上,針對不同的研究內容和需要,對生物學知識和資訊的進一步整理得到的資料庫。
二級資料庫的形式:大多以web介面為基礎,具有文字資訊、表格、圖形、圖表等方式顯示資料庫內容;
一級資料庫與二級資料庫之間並無明確的界限。
五
主要的blast程式
程式名 |
查詢序列 |
資料庫 |
搜尋方法 |
Blastn |
核酸 |
核酸 |
核酸序列搜尋逐一核酸資料庫中的序列 |
Blastp |
蛋白質 |
蛋白質 |
蛋白質序列搜尋逐一蛋白質資料庫中的序列 |
Blastx |
核酸 |
蛋白質 |
核酸序列6框翻譯成蛋白質序列後和蛋白質資料庫中的序列逐一搜索。 |
Tblastn |
蛋白質 |
核酸 |
蛋白質序列和核酸資料庫中的核酸序列6框翻譯後的蛋白質序列逐一比對。 |
TBlastx |
核酸 |
核酸 |
核酸序列6框翻譯成蛋白質序列,再和核酸資料庫中的核酸序列6框翻譯成的蛋白質序列逐一進行比對。 |
T表示翻譯;n表示核酸; p表示蛋白; x表示交叉
點陣分析:
- 尋找序列間可能的性狀對位排列
- 尋找蛋白質、DNA序列中正向或反向重複
- 預測RNA中自補區域
- 優點:可以找到兩個序列間所有可能的殘基匹配
- 簡單、易懂
- 直觀、整體性強
點陣法的序列比對:尋找兩條序列的最佳比對,實際上就是尋找在矩陣標記圖中找非重疊平行斜線最長的組合。
最短路經問題:演算法求解:
從起點到終點逐層計算
簡答:系統發育樹的構建步驟
1、特徵資料選取:
基因、個體、群體或物種的資訊
常用的方法:多序列比對
2、構建距離資料或相似性資料:
涉及的則是成對基因、個體、群體或物種的資訊。
3、選擇建樹方法以及替代模型:
目前主要有三種:距離法、最大簡約法、最大似然法
4、構建進化樹:
拓撲結構的判別(從大量的拓撲結構中搜尋、判別)
5、進化樹評估:
與實際進化的比較
七:序列預測,常用的檢驗指標
1. 靈敏度 (Sensitivity, Sn): 對於真實的資料,能夠預測成“真”的比例是多少;
2. 特異性 (Specificity, Sp):對於陰性的資料,能夠預測成“假”的比例是多少;
3. 準確性 (Accuracy, Ac):對於整個資料集(包括陽性和陰性資料),預測總共的準確比例是多少;
4. 馬修相關係數(Mathew correlation coefficient, MCC):當陽性資料的數量與陰性資料的數量差別較大時,能夠更為公平的反映預測能力,值域[-1,1];
1. 樣本/檢驗資料:陽性資料(P),陰性資料(N);
a. 陽性資料(P):真實的,被實驗所證實的資料;
b. 陰性資料(N):被實驗所證明為無功能的資料;
2. 對於預測結果的評測,定義:
a. 真陽性 (TP): 陽性資料中被預測為陽性的資料;
b. 假陽性 (FP): 陰性資料中被預測為陽性的資料;
c. 真陰性 (TN): 陰性資料中被預測為陰性的資料;
d. 假陰性 (FN): 陽性資料中被預測為陰性的資料
作業:鹼基:為什麼是四個鹼基?為什麼是三聯體編碼?為什麼密碼 表是這樣排列的?
1.在16種可以配對形成DNA的核苷鹼基中,為何只有A、T、G、C組成了生物體的基因組字母表?研究人員一直認為這是因為最初生命形成的原始環境中就只有這4種鹼基。但愛爾蘭都柏林的Trinity學院的Dónall Mac卻認為,這4種鹼基的選擇是最小化錯誤策略的具體表現.
2.三個鹼基成為一組決定一個氨基酸。(舉個例子:鳥嘌呤-胞嘧啶-胞嘧啶這三個鹼基組成的資訊叫'甘氨酸'的氨基酸放在那個位置的指令。)當把四個鹼基(鳥嘌呤、胞嘧啶、腺嘧啶、胸腺嘧啶)做成由三個鹼基組成的鹼基對時,則能夠組成的鹼基對總共有4×4×4=64種。即能夠指令64種氨基酸。我們身體的氨基酸總共有二十多種,這說明由三個鹼基組成的鹼基對可充分地向人體所有氨基酸作出指令。
3.互不相同的四個鹼基,即四塊不同的"磚"三個合成一組,由一組找出一個氨基酸,數百個氨基酸連線,才能形成一個蛋白質。蛋白質是氨基酸以鹼基互補配對方式連線成的物質。我們體內有二十多種氨基酸,正是藉著這二十多種氨基酸的組合,地球上的所有動物和植物的模樣和性質都有些不同,即使同樣的人,長像和體質也不同。二十個氨基酸合成一個特定蛋白質的概率是多少。假設17個氨基酸,按著不同的方式排列,能排多少種呢?17×16×15×……3×2×1=?超過355兆種。那麼形成其中一種方式的概率為355兆分之一。
基因組:人與人為什麼長的不一樣?那些“垃圾”DNA為什麼會留下來?人類是怎樣進化來的?人與鼠的基因組差別很小,但為什麼物種間差異這樣大?
1.因為每個人的遺傳基因不相同,並且在DNA複製轉錄的過程中還會發生基因突變,而且每個人生活環境不同,這些也會影響基因的表達,所以人和人長得不一樣。
2、那些“垃圾”基因在不同的環境下表達效果不同。也有有利的表達方式。
3.人類是由猿猴進化而來。
4、基因的選擇性表達可能導致無中間的差異,因為人類社會和鼠的社會方式不同,這會影響基因的表達
蛋白質:相同的氨基酸序列有相同的結構嗎?每個氨基酸在蛋白質中的貢獻都是相同的嗎?蛋白質算不算遺傳物質呢?為什麼蛋白質在生物學中是這樣的重要?蛋白質是怎樣運動的呢?
1、相同的氨基酸序列有相同得結構,也有不同的結構。空間各異性導致了表達不一樣。
2、不同,不同的蛋白質每個氨基酸所佔比例不同,氨基酸貢獻也都不一樣。R基一般不同。
3、遺傳物質主要指DNA和RNA,但對朊病毒來說,蛋白質是其遺傳物質。
4、蛋白質是基因體現的直接物質,蛋白質是生命活動的主要承擔者。
5、胞呑和胞吐
網路:現在的數學方法能解決多少網路問題?表型與蛋白的關係是怎樣的?每個人蛋白基本相同,為什麼表型卻不一樣?
1、數學貫徹在各個行業,網路的執行都需要數學來維持。
2、蛋白相同表型不一定相同,表型相同,蛋白結構不一定相同。
3、影響表型的因素很多。蛋白質的空間結構,組合方式,以及外界環境不同,所以表型不一樣