轉錄組差異表達分析小實戰（一）

阿新 • • 發佈：2018-11-09

轉錄組差異表達分析小實戰（一）

Posted: 七月 28, 2017 Under: Transcriptomics By Kai no Comments

讀文獻獲取資料

文獻名稱：AKAP95 regulates splicing through scaffolding
RNAs and RNA processing factors

查詢資料：Data availability
The RIP-seq an RNA-seq data have been deposited in the Gene
Expression Omnibus database, with accession code GSE81916. All other data is
available from the author upon reasonable request.
獲得GSE號：GSE81916

下載測序資料

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE81916獲取資料資訊，並點選網址下方的ftp，下載測序資料
從https://trace.ncbi.nlm.nih.gov/Traces/study/?acc=PRJNA323422可知我們需要的mRNA測序編號為SRR3589956到SRR3589962

通過Apera下載SRR資料，這裡以SRR3589956為例：

ascp -T -i /home/anlan/.aspera/connect/etc/asperaweb_id_dsa.openssh  
[email protected]-private.ncbi.nlm.nih.gov:sra/sra-instant/reads/ByRun/sra/SRR/SRR358/SRR3589956/SRR3589956.sra ./

轉化fastq測序資料

通過sratoolkit工具將SRR檔案轉化為fastq格式的測序資料（寫了個shell迴圈）
```
for i in $(seq 56 62);do nohup fastq-dump --split-3 SRR35899${i} &;done
```
通過fastqc對每個fastq檔案進行質檢，用multiqc檢視整體質檢報告（對當前目錄下的fastq測序結果進行質檢，生成每個fq檔案的質檢報告總multiqc整合後統計檢視）
```
fastqc *.fastq
multiqc ./
```
點選這個url可以檢視我這個multiqc報告：http://www.bioinfo-scrounger.com/data/multiqc_report.html
如果有接頭或者質量值不達標的需要進行過濾，這次的資料質量都不錯，因此直接進行比對即可

序列比對

安裝hisat2軟體，下載人類的hiast2索引檔案

hisat2下載並安裝：

ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/hisat2-2.1.0-Linux_x86_64.zip
unzip hisat2-2.1.0-Linux_x86_64.zip

下載hisat2的human索引

ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/hg19.tar.gz
tar zxvf hg19.tar.gz

用hisat2進行比對，測序資料放在data目錄下，索引檔案放在reference/index/hisat2/hg19目錄下，SRR3589956-SRR3589958為人的測序資料

for i in $(seq 56 58);do hisat2 -p 4 \ -x ~/reference/index/hisat2/hg19/genome \ -1 ./data/SRR35899${i}_1.fastq -2 ./data/SRR35899${i}_2.fastq \ -S SRR35899$i.sam >SRR35899${i}.log;done

用samtools將sam檔案轉化為bam檔案，並使用預設排序

for i in $(seq 56 58);do samtools sort [email protected] 5 -o SRR35899${i}.bam SRR35899${i}.sam;done

reads計數

用htseq對比對產生的bam進行count計數
- htseq安裝，使用miniconda，省事！唯一的問題是htseq版本不是最新的，是0.7.2。想要最新版還是要正常安裝，可參考http://www.biotrainee.com/thread-1847-1-2.html
```
conda install -c bioconda htseq
```
- 用htseq將對比後的結果進行計數
```
for i in $(seq 56 58);do htseq-count -f bam -r pos -s no \ SRR35899${i}.bam ~/reference/genome/hg19/gencode.v26lift37.annotation.gtf \ 1>SRR35899${i}.count 2>SRR35899${i}_htseq.log;done
```

將3個count檔案（SRR3589956.count，SRR3589957.count，SRR3589958.count）合併成一個count矩陣，這是就需要指令碼來解決這個問題，不然其他方法會稍微麻煩點

#!/usr/bin/perl -w
use strict; my $path = shift @ARGV; opendir DIR, $path or die; my @dir = readdir DIR; my $header; my @sample; my %hash; foreach my $file (@dir) { if ($file =~ /^\w+.*\.count/) { push @sample, $file; $header .= "\t$file"; open my $fh, $file or die; while (<$fh>) { chomp; next if ($_ =~ /^\W+/); my @array = split /\t/, $_; $hash{$array[0]} -> {$file} = $array[1]; } close $fh; } } print "$header\n"; map{ my $gene = $_; print "$gene"; foreach my $file (@sample) { print "\t".$hash{$gene} -> {$file}; } print "\n"; }keys %hash;

按照接下來的劇本，應該講count_matrix檔案匯入DESeq進行差異表達分析。但是從這篇文章的Bioinformatic analyses部分可以發現，作者的control組的2組資料是來自2個不同的批次（一個是SRR3589956，另外一個來源GSM1095127 in GSE44976），treat組倒是同一個批次（SRR3589957和SRR3589958）。但是對於Mouse cells來說，倒是滿足2個control和2個treat都正常來自同個批次，因此打算重新用SRR3589959-SRR3589962重新做個一個count_matrix進行後續差異分析

轉錄組差異表達分析小實戰（一）

轉錄組差異表達分析小實戰（一） Posted: 七月 28, 2017 Under: Transcriptomics By Kai no Comments 讀文獻獲取資料文獻名稱：AKAP95 r

轉錄組差異表達分析小實戰（二）

轉錄組差異表達分析小實戰（二） Posted: 八月 14, 2017 Under: Transcriptomics By Kai no Comments 差異基因表達分析我按照前面的流程轉錄組差

React第一階段實戰分析--評論功能（一）

第一步：元件劃分元件樹表示：第二步元件實現 1.從元件的頂層開始，在一步步往下構建元件樹。 import React from 'react'; import CommentInput from './commentInput'; import CommentL

吳裕雄資料探勘與分析案例實戰（3）——python數值計算工具：Numpy

# 匯入模組，並重命名為npimport numpy as np# 單個列表建立一維陣列arr1 = np.array([3,10,8,7,34,11,28,72])print('一維陣列：\n',arr1)# 一維陣列元素的獲取print(arr1[[2,3,5,7]]) # 巢狀元組建立二維陣列ar

吳裕雄資料探勘與分析案例實戰（4）——python資料處理工具：Pandas

# 匯入模組import pandas as pdimport numpy as np # 構造序列gdp1 = pd.Series([2.8,3.01,8.99,8.59,5.18])print(gdp1)# 取出gdp1中的第一、第四和第五個元素print('行號風格的序列：\n',gdp1[[0,3,

吳裕雄資料探勘與分析案例實戰（5）——python資料視覺化

# 餅圖的繪製# 匯入第三方模組import matplotlibimport matplotlib.pyplot as plt plt.rcParams['font.sans-serif']=['Simhei']plt.rcParams['axes.unicode_minus']=Falseziti =

吳裕雄數據挖掘與分析案例實戰（7）——嶺回歸與LASSO回歸模型

Y軸 otl error 處理回歸 models 關系 err idg # 導入第三方模塊import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn import mod

吳裕雄資料探勘與分析案例實戰（6）——線性迴歸預測模型

# 工作年限與收入之間的散點圖# 匯入第三方模組import pandas as pdimport seaborn as snsimport matplotlib.pyplot as plt # 匯入資料集income = pd.read_csv(r'F:\\python_Data_analysis_and

吳裕雄數據挖掘與分析案例實戰（6）——線性回歸預測模型

img rcp 圖例 his sha bubuko 數量 xlsx drop # 工作年限與收入之間的散點圖# 導入第三方模塊import pandas as pdimport seaborn as snsimport matplotlib.pyplot as plt #

吳裕雄資料探勘與分析案例實戰（9）——決策樹與隨機深林

# 匯入第三方模組import pandas as pd# 讀入資料Titanic = pd.read_csv(r'F:\\python_Data_analysis_and_mining\\10\\Titanic.csv')print(Titanic.shape)print(Titanic.head())#

吳裕雄資料探勘與分析案例實戰（12）——SVM模型的應用

import pandas as pd # 匯入第三方模組from sklearn import svmfrom sklearn import model_selectionfrom sklearn import metrics # 讀取外部資料letters = pd.read_csv(r'F:\\py

吳裕雄資料探勘與分析案例實戰（14）——Kmeans聚類分析

# 匯入第三方包import pandas as pdimport numpy as np import matplotlib.pyplot as pltfrom sklearn.cluster import KMeansfrom sklearn import metrics # 隨機生成三組二元正態分佈隨

ItemDecoration深入解析與實戰（一）——原始碼分析

一概述 ItemDecoration 是 RecyclerView 中的一個抽象靜態內部類。 An ItemDecoration allows the application to add a special drawing and layout offset to specific item v

微信小程式入門到實戰（一）

瞭解小程式什麼是小程式？小程式其實就是一個工具，為人提供便捷服務的；隨時可用，用完即走，減少桌面上面的app數量； B2C（人與商品）淘寶 JD P2P（人與人）微信 QQ C2P（人與服務）微信小程式支付寶小程式什

微信小程式實戰（一）---實現登入介面

昨天小程式第一天公測，就下載個小程式自帶IDE玩了玩，看了看API，擼出了個登入介面給大家分享下。下面是主介面和程式碼。 index.wxml <view class="container"> <view class="usermotto">

機器學習小實戰（四） KMeans聚類

目錄二、小案例一、 KMeans聚類簡介需要事先指定簇的數目k 優化目標：所有點到各自質心的距離之和最小特點：受初始值（K個隨機質心的位置）的影響挺大的、受形狀的影響還有點大二、小案例讀資料、演算法例項化（設定引數），訓練模型、展示與分析

機器學習小實戰（三）貝葉斯實現拼寫檢查器

一、貝葉斯（Bayes）簡介貝葉斯老爺爺是一位有名的老人家！貝葉斯演算法和概率有關，貝葉斯公式其實高中學過的，就是忘了而已。二、貝葉斯實現拼寫檢查器 1. 原理 argmaxc P(A|B)=argmaxc P(B|A) P(A) /P(B) P(

機器學習小實戰（六） XGBoost基本原理

一、xgboost原理 1. 實踐證明，tree boosting（樹提升）可以有效地用於分類和迴歸任務中，提升方法是一種非常有效的機器學習方法，xgboost是提升的強化版本。 2. 和決策樹相關，集成了多個弱學習器。 3. 提升演算法，相當於一棵樹一棵樹地加，每加一

機器學習小實戰（二）建立決策樹

目錄一、決策樹簡介決策樹既可以分類，也可以迴歸。構造決策樹兩種方式：預剪枝/後剪枝難點：如何構造決策樹，選什麼特徵作為結點。特點：根節點是分類效果最好的，其餘次之、再次之。決策樹停止劃分結點的原因可能是：達到最大葉子節點數了、葉子結點樣本數

iOS專案跳轉解耦實戰（一）

今天寫的這個主題分為四篇文章，今天是第一篇，我們回講解的比較簡單一些，主要看看大工程中各種各樣的跳轉模式，各個控制器傳引數。在這種情況下，就會出現你中有我，我中有你，十分臃腫，牽一髮而動全身。那麼怎麼才能夠解除這種繁重的耦合情況呢，下面看看我是怎麼做的吧！（一）首先我們針對P

轉錄組差異表達分析小實戰（一）