1. 程式人生 > >當我們談論基因,我們在談論什麼

當我們談論基因,我們在談論什麼

本文轉自:http://www.knowgene.com/article/297

----blalala

昨天發玩兒關於“只有少數人用用blablabla基因”的吐槽文,工號九千多的BGI新員工玄澄問我,“基因是什麼”。我的回覆是“這真是一個很困難的問題”。作為節操導師,我不能隨隨便便就誤導和打發了一個新員工,嗯,沒錯是這樣,順便在收入多於我幾倍的新員工面前裝裝逼什麼的。


我不知道“基因”是什麼,或者說,我其實不知道我們每個人在每種語境下所謂的“基因”是什麼。

【當我們談論基因,我們可以談論任何DNA】

根據我們 <吐槽> 非常值得呵呵的 </吐槽> 的中學生物課本——暫且把初中義務教育的內容作為讀者們的“共識”吧,基因是“具有遺傳效應的DNA片段”。<假設> 如果基因的定義是這樣的話,那麼任何長度尺度、任何遺傳效應的DNA片段都可以稱之為“基因”。比如編碼了一個蛋白的DNA序列——比如大家可能比較熟悉的BRCA1,可以稱之為一個“基因”。一個外顯子(編碼一個蛋白質的一部分),可以稱之為一個“基因”。一個啟動子(讓一段下游DNA開始轉錄成RNA再翻譯成一個蛋白的DNA序列,可以簡單看做是一個基因的開關 <自我吐槽> 臥槽概念一不小心迭代了</自我吐槽>,也可以稱之為一個“基因”。甚至一整條几百兆的染色體(有遺傳效應吧,是DNA片段吧,why not),或者甚至是一個只有6個鹼基的酶切位點(比如在細菌裡,吃他們的噬菌體會識別這些位點把細菌的基因組幹掉),都可以稱之為一個“基因”。</假設>

然而這樣,“基因”就被我們玩兒壞了,因為它作為一個學術概念,變成了一個定義模糊、毫無門檻、能夠引起無限誤解的概念,一個連在強國論壇灌水轉基因威脅論的街邊象棋大爺都能隨意使用,且不用擔心任何概念和邏輯謬誤的東西。

【當我們談論基因,我們左手ATG,右手TGA】

但我們總不能這麼隨意,隨意是對不求甚解和傳播謬誤的縱容。而且我們總是在冥冥之中覺得,“基因”大概需要是一個什麼單位。為了避免造成誤解,一般工作中我習慣使用Operon(操縱子)、Transcription Unit(轉錄單元)、CDS(編碼序列)、ORF(開放讀碼框 <吐槽> 尼瑪搜狗輸入法預設選項不是“開放” </吐槽>)、Transcriptional Domain(轉錄區)等和“基因”相關卻又有更確切定義的概念 <被吐槽> 臥槽你說的這些都是什麼玩意兒 </被吐槽>。然後想解釋這些概念在何時何地能夠在多大程度上扮演“基因”的概念,我們得先看看“基因”的結構。


<段子> 很巧的是,BGI知名的zhuangbility水平遠在我至上的一個傢伙某次講課問“基因是什麼”,然後自答說“我也不知道”。然後第二次講課問“基因的結構是什麼”,沒人回答,丫很生氣。如果我在場一定會站起來問“既然你問基因的結構是什麼,請先告訴我基因是什麼”。哎呀好了我們不就這個死迴圈擡槓了。</段子>
好吧我們看看基因的結構(這裡只是蛋白質編碼基因的結構啦,還有tRNA基因啦,lincRNA基因啦,我們就先不提了)。

eukaryon.png

原核生物廣泛存在幾個獨立的蛋白質編碼序列公用一個或一組啟動子的情況,所以,一般提到原核生物的基因,啟動子和終止子這種很容易被好幾個“基因”共用的轉錄水平的元件,是常常不被納入“基因”的界限的。方便起見,多數情況下我們僅以蛋白質翻譯的起點和終點——也就是起始密碼子和終止密碼子——無比可信的界限,作為基因的邊界。


protokaryon.png

真核生物則不同,絕大部分編碼蛋白質的“基因”,都獨享一套轉錄調控元件(啟動子、終止子)。而且真核生物的非翻譯區(UTR),存在著更豐富的調控元件。所以在定義基因時,把UTR區和參與轉錄調控的啟動子和終止子也算作基因內,也是沒啥問題的。

但真核生物更加麻煩的是,調控序列區域可能很長很長,更加難以預測,不存在像起始密碼子和終止密碼子這麼明確的界限。所以其實,無論是原核生物或是真核生物,在多數情況下,我們談論“基因”,指的是“從起始密碼子到終止密碼子的部分”。有些時候,比如我們拿到的基因註釋資訊裡,基因還包括兩側UTR的部分,也就是完整的“轉錄區”,那是因為有足夠的轉錄組測序幫我們確定了這個沒那麼容易看清的“邊界”。並非我們不想讓啟動子到終止子這樣整個完整的功能區塊被納入“基因”的範疇,只是我們對於DNA這種上帝的語言的理解還太多有限,還沒發確切摸清這樣的邊界罷了。

【當我們談論基因,我們其實在談論遺傳】

還有一種情況,我們在談論“基因”,但實際上我們在討論“遺傳”。只是“基因”這個詞太好聽,太新潮,以至於我們都太愛使用它。

尤其是,“基因”被我們不經意地用作形容詞的時候。漢語的詞是看不出詞性的,但英語裡可以。Gene是基因,而Gene的形容詞,Genetic,多數情況下翻譯成“遺傳的”而非“基因”,感覺會三觀正好多。<吐槽>但是翻譯成“遺傳的”,又很容易和 inherited 混在一起,真是頭疼呢</吐槽>。比如Genetic Engineering比較確切的翻譯應該是“遺傳工程”,而非“基因工程”;GM food翻譯成“遺傳改造食物”,要好於“基因改造食物”,而遠遠好於“轉基因食物”;Genetic Counselor是遺傳諮詢師而不叫基因諮詢師;相應的,大行其道的Genetic Testing也應該稱為遺傳檢測而非基因檢測。因為,“基因”的概念跨度太過奇葩,又有被大家玩兒壞的潛質。如果倔強地生活在狹隘的定義下,工程改造的物件未必是基因(比如有可能是調控元件),我們檢測的DNA也未必是基因(比如我們暫時還不知道怎麼解釋的非編碼區SNP)。<吐槽>不過比起“基因檢測”,貌似“遺傳檢測”聽起來賺不到什麼錢的樣子啊。</吐槽>
【當我談論基因,我其實是在裝逼】

我們越是喜歡用“基因”這個名詞做噱頭,就越有風險,招致很多人對“基因”這個肆意濫用的概念,以及因“基因”躺著也中槍的所有美好知識、技術和產品的反感。所以我的很不靠譜的建議是,專業一點兒,耐心一點兒,告訴大傢什麼是DNA,什麼是遺傳,什麼是基因型,什麼是編碼序列,什麼是轉錄和翻譯。然後,我們少談“基因”。