1. 程式人生 > >機器學習與資料科學 基於R的統計學習方法(一)-第1章 機器學習綜述

機器學習與資料科學 基於R的統計學習方法(一)-第1章 機器學習綜述

1.1 機器學習的分類

監督學習:線性迴歸或邏輯迴歸,

非監督學習:是K-均值聚類, 即在資料點集中找出“聚類”。 另一種常用技術叫做主成分分析(PCA) , 用於降維,

演算法的評估方法也不盡相同。 最常用的方法是將均方根誤差(RMSE) 的值降到最小, 這一數值用於評價測試集的預測
結果是否準確。 RMSE評價法會在第7章進行更深入的解釋。 另一種常用的評估方法是AUC, 即ROC曲線下的面積。

 

1.8 使用R包

有大量的通用包(當前大約是7000個) , 其中很多涉及有用的統計方法, 也有特定領域的包: 金融、 天文學、 分子生物學、 生態學等。

1. 你可以用下面給出的R指令碼來找到當下可用的R包數目:
> dim(available.packages())

2. 一旦找到了滿足你需求的R包, 你需要在本地配置中安裝它。 例如, 這是安裝lubridate包的命令:
> install.packages("lubridate")

3. 一個包只能安裝一次。 安裝完成後, 你需要做的是用library()把它載入到記憶體中。 library()函式用來載入基礎R配置中未包括的函式庫(函式和資料集的集合) 。
> library(lubridate)

4. 你應該去訪問CRAN上該R包的頁面來下載參考手冊和任何可能有幫助的簡介

5. 舉個例子, 基礎R包含有stats包, 裡面有常用演算法, 例
如: lm()用來擬合一個簡單的線性迴歸模型, glm()用來擬合廣義的線性模型; 如邏輯迴歸: hclust()用來做聚類分析, kmeans()用來做k均值聚類, prcomp()用來做基本的組成成分分析; 還有其他很多功能。
除此之外, 還有許多機器學習的附加包可以補充基礎R包的功能。例如, class包中的knn()用來做k最近鄰演算法, tree包中的tree()用於擬合分類樹或是迴歸樹, randomForest包中的randomForest()用來實現隨機樹演算法, e1071包中的svm()用來實現支援向量機, 還有很多其他功能。

6. 為了找到其他滿足機器學習需求的R包, 你可以使用谷歌。 例如,你想尋找用來實現進化演算法的包, 可以搜尋“R中的進化演算法”。 結果會告訴你參考DEoptim包, 這個包中含有你需要的機器學習演算法。

 

1.9 資料集

1. 書中使用的大多數資料集都是R軟體在安裝時自帶的

2. 你將在RStudio的Workspace標籤頁看到資料集的名稱

data(package="plyr")

要檢視某個資料集中的更多內容, 你可以使用在資料集名稱前面加? 的命令

> ? airquality

你可以使用以下命令來將某個資料集載入到記憶體中:
> data(iris)


快捷鍵

(1)清空控制檯`Ct rl+L`

(2)清除變數歷史記錄 rm(list = ls())

比如,上圖把p變數清除後,再執行就會提示

Error: object 'p' not found

(3)按Ctrl+C鍵,中斷R正在執行的程式而不退出R軟體

(4)使用快捷鍵這種方法,僅在RStudio中可以使用。首先選中要註釋掉的行,然後按 Ctrl+shift+C ,這樣就註釋掉了。這其實和單行註釋的方法一樣,只不過RStudio幫我們簡化而已。如果要取消註釋的話, 依然是先選中,然後按快捷鍵 Ctrl+shift+C 即可。


https://technicspub. com/analytics/

上傳了本書中使用的所有R原始碼和註釋。 同時也收錄了所有的圖表(很多是彩色的)

很多流行的R部落格(rbloggers) 的內容: www.r-bloggers.com

 

變數的命名:首字母小寫,第二個單詞字母大寫 lineCnt

陣列 向量

基本語法

if(){

}

While(1){

}

For(; ;){

}

break continue


一些重要的網址收藏在R語言中,分享下

http://www.bio-info-trainee.com/2297.html (重要)

http://www.bio-info-trainee.com/2535.html

http://www.360doc.com/content/17/0906/17/41791033_685047297.shtml

R語言基礎視訊: https://www.imooc.com/learn/546