1. 程式人生 > >生信基礎(三)——統計分析工具R語言

生信基礎(三)——統計分析工具R語言

原創: hxj7

關鍵詞:R; 統計; 美圖

作為一個生信er,光會處理文字資料是不夠的,還要能進行統計分析。作為一個開源軟體,R在統計社群“大行其道”,在生信分析人員中更是“一家獨大”。為啥?因為R語言就是一群統計學家開發的,統計函式齊全,新的統計方法很快就會有相應的包被開發出來。複雜的統計分析往往兩三行程式碼就可以完成,那個方便呦,誰用誰知道!

(不過,也有許多學計算機專業出身的同學很不喜歡R,各種不順眼…。比如,R的陣列下標是從1開始的,而諸如C、Python等語言都是從0開始,光這一點就讓他們抓狂。他們迫不及待地就去擁抱numpy、pandas了!)

在這裡插入圖片描述
圖1:lm函式進行線形迴歸分析,一行程式碼即可實現

那如何學習R呢?方法很多,我個人是看著《R語言實戰》這本書自學的。相信很多生信人都知道它,誠如作者在書中說,當時國內R語言的資料很少,許多想學習R語言的人都備受煎熬。以至於這本書一問世,便廣受好評(像不像做廣告的~)

在這裡插入圖片描述
圖2:《R語言實戰 第二版》

上面講了那麼多,還有一點不得不提。其實R為眾多行業的人廣泛接受,不止因為它強大而便捷的統計分析功能,還因為用R可以輕鬆畫出專業而精美的圖片(外貌協會的人有福了)。我認識的一些學經濟、金融的同學都是R的高手,據他們說,商業報表中的很多精美圖片都是用R做出來的。另外,正如黃小仙童鞋《我是如何“被逼無奈”開始學R的》一文中所展示的那樣,生物學文獻中統計結果的圖大部分都是用R畫出來的。R,就是集美貌與才華於一身的翩翩少年!

在這裡插入圖片描述
圖3:R可以輕鬆畫出基因表達的箱線圖

至此,“生信基礎”系列就告一段落了。簡單來說,生信人員常用的三種語言Shell、Python/Perl、R最好都能熟練掌握。無論以後的工作內容/研究方向是什麼,這三種語言都是基礎。比如,現在很火的機器學習,其在生信領域也是應用廣泛。不同於很多計算機專業的人選擇用Python/C++來實現機器學習演算法,你會發現生信人更多地用R來進行機器學習演算法分析。如果你已經掌握了Python或者R,那麼入門機器學習的時候在程式語言這一關你會少了很多阻礙。

下一篇我會分享一下生信工作中會遇到的一些瑣碎但又很重要的事情。咱們下期再見!

公眾號:生信了
在這裡插入圖片描述