1. 程式人生 > >總結實驗室對轉錄組及lncRNA資料分析的思路

總結實驗室對轉錄組及lncRNA資料分析的思路

     繼師兄詳細地講述這個思路之後,我進行一個歸納總結(師兄說,首先要建立一個思想上的流程,再來糾結軟體、命令這些細節!!!!!!)

     首先你得了解 raw_data / 參考基因組  .fa / 註釋檔案 .gtf / 索引檔案 indexes(通過hisat2-build ,根據基因組檔案新建索引檔案)

     raw_data 原始資料

     參考基因組  .fa   1———  —————  ——————  ———————  ————————  —————  —————

                                2————— —————— ——————— ——————  ————————

                                3———— ————— ———— —————— ——————— ————— ——— —

      註釋檔案  .gtf     1chr 

                                基因  轉錄本1/2/3……  內含子……

      索引檔案

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

     從公司拿到的raw_data開始:

一、質控資料

(fastqc)——根據質控資料的好壞,進行篩選,資料不行的用trim去掉(具體什麼軟體也沒聽清楚)

二、再次質控,最後的資料叫clean_data,此時的資料裡都是短 reads

三、hisat2 把這些reads 比對到基因組上(這個過程要包括輸出檔案的格式轉換和排序)

四、進行序列的初組裝(把上面比對上的零散的reads 組裝起來)

五、把所有的轉錄本合併

     ————————————— ————————    ——————————————   —————     這就是合併的轉錄本

     ——   ——         ————       —— ——  ——          ——           ——   ——————    ——      這就是組裝的,散的但是有序

           ——      —— —— ———  ——— ————             ————      —— ——   ——   ——  

      相當於把散的轉錄本 取並集

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

      現在就可以對這些轉錄本進行定量,FPKM差異  /  htseq-count,(一個是計算reads落在merge上的概率;一個是計數——但這都是把表達量通過reads來量化)

      如果做轉錄組分析,就拿著這個定量的結果進行分析,lncRNA就繼續,怎麼得到lincRNA??

      lincRNA    基因間——長鏈——非編碼

一、基因間

       把merge的結果和參考基因組(上面的基因,我們已知)比較

參考基因組 ————          ————           ——————           —————————————— 

  merge                 —————            ——————                      ————————

如上,黃色部分為基因間的,擷取下來

二、長鏈

       long >= 200   exon >= 2(外顯子為什麼要大於等於2,這個演算法不清楚)

三、非編碼(也就是能轉錄,但是不能翻譯成蛋白質——那就是把序列 預測 蛋白 ,如果蛋白庫裡有,那就不是我們的目標)

        位置 >>>> 序列 >>>> 蛋白

        這裡有很多辦法,或者cpc……

        一段序列有6中氨基酸序列的可能性

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

得到lincRNA後,做什麼?進行差異分析,富集通路,也就是找lincRNA和功能的關係

一、 功能預測

       cis—— 往往都是從上下游去找基因,然後找這些基因的共性

       trans——找lincRNA和已知gene之間的相關性,橫向縱向都很多,全部都要兩兩對比,| 相關 | >0.7/0.8 , p < 0.05/0.01

                       然後從相關性係數,去找規律

二、 差異分析 (上調,下調)

三、 QTL (把lincRNA拿到QTL上去對應性狀)

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

但是整個過程都只是一個概率,去預測lincRNA,那為什麼有的實驗室lincRNA能發高分,能做一套完整的流程,我們只能停留在找到lincRNA,做一個定量,這個問題比較重要!!!!