1. 程式人生 > >【題目】2016年全國研究生數學建模競賽B題 具有遺傳性疾病和性狀的遺傳位點分析

【題目】2016年全國研究生數學建模競賽B題 具有遺傳性疾病和性狀的遺傳位點分析

同學給我看了她參加競賽的題目,我一看,這不巧了嗎,我也就看看題目......

人體的每條染色體攜帶一個DNA分子。在這條雙螺旋的長鏈中,共有約30億個鹼基對,而基因則是DNA長鏈中有遺傳效應的一些片段。在組成DNA的數量浩瀚的鹼基對(或對應的脫氧核苷酸)中,有一些特定位置的單個核苷酸經常發生變異引起DNA的多型性,我們稱之為位點

DNA長鏈中,位點個數約為鹼基對個數的1/1000

近年來,研究人員大都採用全基因組的方法來確定致病位點或致病基因,具體做法是:招募大量志願者(樣本),包括具有某種遺傳病的人和健康的人,通常用1表示病人,0表示健康者。對每個樣本,採用鹼基(A,T,C,G)的編碼方式來獲取每個位點的資訊(因為染色體具有雙螺旋結構,所以用兩個鹼基的組合表示一個位點的資訊);如表1中,在位點rs100015位置,不同樣本的編碼都是T和C的組合,有三種不同編碼方式TT

,TCCC。類似地其他的位點雖然鹼基的組合不同,但也只有三種不同編碼。研究人員可以通過對樣本的健康狀況和位點編碼的對比分析來確定致病位點,從而發現遺傳病或性狀的遺傳機理。

這些資訊包括這1000個樣本的疾病資訊、樣本的9445個位點編碼資訊,以及包含這些位點的基因資訊。

事實上,可以把基因理解為若干個位點組成的集合。

問題三、同上題中的樣本患有遺傳疾病A的資訊(phenotype.txt檔案)。現有300個基因,每個基因所包含的位點名稱見資料夾gene_info中的300個dat檔案,每個dat檔案列出了對應基因所包含的位點(位點資訊見檔案genotype.dat)。由於可以把基因理解為若干個位點組成的集合,遺傳疾病與基因的關聯性可以由基因中包含的位點的全集或其子集合表現出來請找出與疾病最有可能相關的一個或幾個基因,並說明理由。

問題四、在問題二中,已知9445個位點,其編碼資訊見genotype.dat檔案。在實際的研究中,科研人員往往把相關的性狀或疾病看成一個整體,然後來探尋與它們相關的位點或基因。試根據multi_phenos.txt檔案給出的1000個樣本的10個相關聯性狀的資訊及其9445個位點的編碼資訊(見genotype.dat),找出與multi_phenos.txt中10個性狀有關聯的位點。

—————————————————————————————————————————————————————————————————————————————

這是原題:

2016年全國研究生數學建模競賽B題

具有遺傳性疾病和性狀的遺傳位點分析

人體的每條染色體攜帶一個DNA分子,人的遺傳密碼由人體中的DNA攜帶。DNA是由分別帶有A,T,C,G四種鹼基的脫氧核苷酸連結組成的雙螺旋長鏈分子。在這條雙螺旋的長鏈中,共有約30億個鹼基對,而基因則是DNA長鏈中有遺傳效應的一些片段。在組成DNA的數量浩瀚的鹼基對(或對應的脫氧核苷酸)中,有一些特定位置的單個核苷酸經常發生變異引起DNA的多型性,我們稱之為位點。染色體、基因和位點的結構關係見圖1.

在DNA長鏈中,位點個數約為鹼基對個數的1/1000。由於位點在DNA長鏈中出現頻繁,多型性豐富,近年來成為人們研究DNA遺傳資訊的重要載體,被稱為人類研究遺傳學的第三類遺傳標記。

大量研究表明,人體的許多表型性狀差異以及對藥物和疾病的易感性等都可能與某些位點相關聯,或和包含有多個位點的基因相關聯。因此,定位與性狀或疾病相關聯的位點在染色體或基因中的位置,能幫助研究人員瞭解性狀和一些疾病的遺傳機理,也能使人們對致病位點加以干預,防止一些遺傳病的發生。

近年來,研究人員大都採用全基因組的方法來確定致病位點或致病基因,具體做法是:招募大量志願者(樣本),包括具有某種遺傳病的人和健康的人,通常用1表示病人,0表示健康者。對每個樣本,採用鹼基(A,T,C,G)的編碼方式來獲取每個位點的資訊(因為染色體具有雙螺旋結構,所以用兩個鹼基的組合表示一個位點的資訊);如表1中,在位點rs100015位置,不同樣本的編碼都是T和C的組合,有三種不同編碼方式TT,TCCC。類似地其他的位點雖然鹼基的組合不同,但也只有三種不同編碼。研究人員可以通過對樣本的健康狀況和位點編碼的對比分析來確定致病位點,從而發現遺傳病或性狀的遺傳機理。

表1.  在對每個樣本採集完全基因組資訊後,一般有以下的資料資訊

(以6個樣本為例,其中3個病人,3個健康者):

樣本編號

樣本健康狀況

染色體片段位點名稱和位點等位基因資訊

rs100015

rs56341

...

rs21132

1

1

TT

CA

...

GT

2

0

TT

CC

...

GG

3

1

TC

CC

...

GG

4

1

TC

CA

...

GG

5

0

CC

CC

...

GG

6

0

TT

CC

...

GG

注:位點名稱通常以rs開頭。

本題目針對某種遺傳疾病(簡稱疾病A)提供1000個樣本的資訊,這些資訊包括這1000個樣本的疾病資訊、樣本的9445個位點編碼資訊,以及包含這些位點的基因資訊。這些資訊包含在附錄中的2個檔案(phenotype.txt , genotype.dat)和1個資料夾gene_info(包含300個檔案)中。

phenotype.txt檔案中包含了樣本具有遺傳疾病A的資訊,即一列0和1組成的資料,其中共有500個0,500個1,表示我們現在共有1000個樣本,其中500個0就是500個沒患有疾病A的人,500個1就是有500個患有遺傳病A的人。如同表一中的第二列。

genotype.dat檔案中包含了上述1000個樣本在某條染色體片段上所有的位點資訊。該檔案總共有1001行,9445列。如同上表1中第三列到第六列的編碼資訊。具體來說,第一行表示9445個位點的名稱,都是以字母rs開頭的;接下來,有1000行,每一行表示一個樣本在該條染色體片段上所有位點(9445個位點)的編碼資訊。例如,該檔案中第2行,就表示1號樣本在該條染色體片段上9445個位點的編碼資訊。

資料夾gene_info中包含了300個dat檔案,表示300個基因的資訊;每個dat檔案中包含了若干個位點的名稱,表示該基因包含的位點資訊,事實上,可以把基因理解為若干個位點組成的集合。注意到在genotype.dat檔案中已包含所有位點的編碼資訊,所以我們可以得到每一個基因所包含位點的編碼資訊。例如gene_1.dat,表示基因gene_1包含了rs3094315,rs3131972,..., rs4040617,共7個位點。

另外,人體的許多遺傳疾病和性狀是有關聯的,如高血壓,心臟病、脂肪肝和酒精依賴等。科研人員往往把相關的性狀或疾病放在一起研究,這樣能提高發現致病位點或基因的能力;

附錄中的multi_phenos.txt檔案中提供了上述1000個樣本的10種相關性狀的資訊。檔案中的每一列表示一個性狀,每一行對應一個樣本。檔案中的0和1資訊同phenotype.txt檔案。

所有這些檔案都可以利用Notepad++軟體開啟。裝好notepad++後,當需要開啟某個資料檔案時,先點選該檔案,然後點選右鍵,螢幕出現選單,其中一欄是“edit with notepad++”,點選這一欄即可。許多軟體也可以將檔案中的資料直接讀入記憶體。(如matlab可用importdata函式讀入)

本題包含以下問題:

問題一、請用適當的方法,把genotype.dat中每個位點的鹼基(A,T,C,G)編碼方式轉化成數值編碼方式,便於進行資料分析。

問題二、根據附錄中1000個樣本在某條有可能致病的染色體片段上的9445個位點的編碼資訊(見genotype.dat)和樣本患有遺傳疾病A的資訊(見phenotype.txt檔案)。設計或採用一個方法,找出某種疾病最有可能的一個或幾個致病位點,並給出相關的理論依據。

問題三、同上題中的樣本患有遺傳疾病A的資訊(phenotype.txt檔案)。現有300個基因,每個基因所包含的位點名稱見資料夾gene_info中的300個dat檔案,每個dat檔案列出了對應基因所包含的位點(位點資訊見檔案genotype.dat)。由於可以把基因理解為若干個位點組成的集合,遺傳疾病與基因的關聯性可以由基因中包含的位點的全集或其子集合表現出來請找出與疾病最有可能相關的一個或幾個基因,並說明理由。

問題四、在問題二中,已知9445個位點,其編碼資訊見genotype.dat檔案。在實際的研究中,科研人員往往把相關的性狀或疾病看成一個整體,然後來探尋與它們相關的位點或基因。試根據multi_phenos.txt檔案給出的1000個樣本的10個相關聯性狀的資訊及其9445個位點的編碼資訊(見genotype.dat),找出與multi_phenos.txt中10個性狀有關聯的位點。

對你得到的結果都應該進行適當的統計分析和檢驗,從而從理論上說明你所發現的致病位點和基因的合理性。

關鍵詞:遺傳統計學,全基因組關聯性分析(GWAS),位點(SNPs)