1. 程式人生 > >R WGCNA基礎(1)——資料過濾

R WGCNA基礎(1)——資料過濾

WGCNA(Weighted Correlation Network analysis)是一個基於基因表達網路權重構建,描述基因表達的關聯模式的R包。挺拗口的吧,其實簡單點的話分析基因的共表達網路,就是兩個樣本有表達量,那麼博主根據表達量可以計算相關性,但如果加入一些新的權重,比如重量、高度、應激條件等等,相當於把基因表達與條件結合起來分析兩者之間的關聯性或相關性,當然表達量是最關鍵的。由此也可以延伸到其他關聯分析,比如SNP等等。最簡單的所有基因表達的結果,額,博主隨便找的資料,建議先做標準化之後再進行分類:

library(WGCNA)
options(stringsAsFactors=FALSE)
enableWGCNAThreads()
myfile=read.table("test.txt", sep="\t", header=TRUE)
mydata=as.data.frame(myfile[, -c(1)])
rownames(mydata)=myfile$ENST
mytree=flashClust(dist(mydata), method="average")
mycolor=numbers2colors(mydata, signed=FALSE)
pdf(file="test.pdf")
plotDendroAndColors(mytree, mycolor, groupLabels=names(mydata), dendroLabels=FALSE, hang=0.01)
dev.off()

基因太多就是這個樣子,大約2W個基因,如果少一點就好看了許多~~~
資料過濾:

clust = cutreeStatic(mytree, cutHeight = 15, minSize = 10)#將15以上資料過濾去
keepSamples = (clust==1)
dat = mydata[keepSamples, ]