1. 程式人生 > >轉載使用隨機森林(R語言)做迴歸

轉載使用隨機森林(R語言)做迴歸

引言

隨機森林( random forest) 是一種基於分類樹( classification tree) 的演算法,它可以用於分類和迴歸,本文在這裡以廣西地區1990-2014共25年的GDP資料作為因變數,以INV投資、CON消費、NEX淨出口為三個自變數,運用R語言軟體做隨機森林迴歸,最終得到三個自變數的相對重要程度。

1 資料

從廣西統計年鑑中取得1990-2014年的因變數與自變數資料,放入excel表格中。
QQ截圖20160407190804.jpg

2 步驟

2.1 安裝randomForest

在R語言中,randomForest包提供了隨機森林的實現,使用randomForest需要先安裝這個包,在R的互動命令中使用下面的命令安裝:

1> install.packages("randomForest")

然後在彈出的映象列表中選擇一個國內的映象站點就可以自動安裝了。

2.2 使用randomForest

在R的互動命令中引入randomForest

1> library(randomForest)

螢幕上會輸出randomForest包的版本資訊。

2.3 匯入資料

將已經整理好的excel資料放入R語言的workspace中,或將R的工作空間載入為存有excel的資料夾。
將資料匯入到R中並檢視:

123456789> gxdata <- read.csv("gxdata1990-2014.csv")> gxdata
X      gdp       con        inv      nex1  1990   449.06  175.4369    68.5666   8.06112  1991   518.59  200.2276    89.6479  10.16703  1992   646.60  243.6189   141.0395  29.2378...24 2013 14449.90 5133.1000 11907.6669 862.218125 2014 15672.89 5772.8317 13843.2123 996.4330

2.4 資料的初步處理

在這裡我們通過兩個步驟將每一行的名字以年份命名。首先去掉第一列(年份),將去掉後的矩陣命名為gxdata_without_x,然後檢視新生成的矩陣,命令如下:

123456789> gxdata_without_x <- gxdata[,-1]> gxdata_without_xgdp       con        inv      nex1    449.06  175.4369    68.5666   8.06112    518.59  200.2276    89.6479  10.16703    646.60  243.6189   141.0395  29.2378……24 14449.90 5133.1000 11907.6669 862.218125 15672.89 5772.8317 13843.2123 996.4330

第二步,取出gxdata矩陣中的第一列gxdata[,1](年份),給矩陣的每一行命名,可檢視新的矩陣,命令如下:

123456789> row.names(gxdata_without_x) <- gxdata[,1]> gxdata_without_xgdp       con        inv      nex1990   449.06  175.4369    68.5666   8.06111991   518.59  200.2276    89.6479  10.16701992   646.60  243.6189   141.0395  29.2378……2013 14449.90 5133.1000 11907.6669 862.21812014 15672.89 5772.8317 13843.2123 996.4330

2.5 多元線性迴歸分析

利用2.4中處理好的矩陣gxdata_without_x,以CON、INV、NEX為自變數,GDP為因變數做多元迴歸分析,檢視多元線性迴歸分析在本例中的分析結果。命令及顯示結果如下:

123456789101112131415161718192021> gx.lm <- lm(gdp~con+inv+nex,data = gxdata_without_x)> summary(gx.lm)Call:lm(formula = gdp ~ con + inv + nex, data = gxdata_without_x)Residuals:Min      1Q  Median      3Q     Max -657.08  -97.80  -20.73   53.71  613.23 Coefficients:Estimate Std. Error t value Pr(>|t|)    (Intercept) 123.88962  101.58446   1.220   0.2361    con           2.31725    0.21224  10.918 4.07e-10 ***inv          -0.05828    0.08507  -0.685   0.5008    nex           3.64880    1.55491   2.347   0.0288 * 

相關推薦

轉載使用隨機森林R語言迴歸

引言隨機森林( random forest) 是一種基於分類樹( classification tree) 的演算法,它可以用於分類和迴歸,本文在這裡以廣西地區1990-2014共25年的GDP資料作為因變數,以INV投資、CON消費、NEX淨出口為三個自變數,運用R語言軟體做隨機森林迴歸,最終得到三個自變數

隨機森林Random Forest--- 轉載

市場營銷 ssi -o afr actual 所有 很好 struct 驗證 1 什麽是隨機森林?   作為新興起的、高度靈活的一種機器學習算法,隨機森林(Random Forest,簡稱RF)擁有廣泛的應用前景,從市場營銷到醫療保健保險,既可以用來做市場營銷模擬的建模,統

信用卡評分模型R語言

eric 線圖 樣本 tag 匯總 lines lan 識別 param 信用卡評分 一、數據準備 1、 問題的準備   ? 目標:要完成一個評分卡,通過預測某人在未來兩年內將會經歷財務危機的可能性來提高信用評分的效果,幫助貸款人做出最好的決策。   ? 背景:     –

用一個簡單的例子比較SVM,MARS以及BRUTOR語言

err r語 模型訓練 n! 也有 kernel 訓練 tps mea 背景重述 本文是ESL: 12.3 支持向量機和核中表12.2的重現過程。具體問題如下: 在兩個類別中產生100個觀測值。第一類有4個標準正態獨立特征\(X_1,X_2,X_3,X_4\)。第二類也有四

3. 集成學習Ensemble Learning隨機森林Random Forest

總結 子節點 clas 支持向量機 2個 最終 分類算法 容易 oot 1. 前言 相信看了之前關於集成學習的介紹,大家對集成學習有了一定的了解。本文在給大家介紹下遠近聞名的隨機森林(RF)算法。 隨機森林是集成學習中可以和梯度提升樹GBDT分庭抗禮的算法,尤其是它可以很方

3. 整合學習Ensemble Learning隨機森林Random Forest

1. 前言 相信看了之前關於整合學習的介紹,大家對整合學習有了一定的瞭解。本文在給大家介紹下遠近聞名的隨機森林(RF)演算法。 隨機森林是整合學習中可以和梯度提升樹GBDT分庭抗禮的演算法,尤其是它可以很方便的並行訓練,在如今大資料大樣本的的時代很有誘惑力。 2. 隨機森林原理 隨機森林是Baggin

協方差矩陣和相關係數矩陣R語言

一、協方差矩陣 1.協方差定義                                     &n

同一介面畫出多個QQ圖R語言

題目:一名研究者用光子吸收法測量了婦女骨骼中無機物含量,對三根骨頭主側和非主側記錄了測量值,資料框“T1bones.txt”中的第2至第7列記錄了相應資料。對各個變數做qq圖,在同一個介面畫出所有的qq圖,不同的qq圖用不同顏色表示。 檔案:T1bones.txt 受試者編號&n

[Machine Learning & Algorithm] 隨機森林Random Forest

閱讀目錄 回到頂部 1 什麼是隨機森林?   作為新興起的、高度靈活的一種機器學習演算法,隨機森林(Random Forest,簡稱RF)擁有廣泛的應用前景,從市場營銷到醫療保健保險,既可以用來做市場營銷模擬的建模,統計客戶來源,保留和流失,也可用來預測疾病的風險和病患

決策樹模型R語言

R語言中最常用於實現決策樹的有兩個包,分別是rpart包和party包,其區別如下: rpart包的處理方式:首先對所有自變數和所有分割點進行評估,最佳的選擇是使分割後組內的資料更為“一致”(pure)。這裡的“一致”是指組內資料的因變數取值變異較小。rpart包對這種“一

統計學——中心極限定理R語言

中心極限定理用通俗的話來講就是,假設有一個服從(μ,σ2)的總體,這個總體的分佈可以是任意分佈,不用是正態分佈,既可以是離散的,也可以是連續的。我們從該分佈裡隨機取n個樣本x1,x2,...,xn,然後求這些樣本的均值x_mean,這個過程我們重複m次,我們就會得到x_me

二分類模型效能評價R語言,logistic迴歸,ROC曲線,lift曲線,lorenz曲線

解決分類問題有多種思路,包括應用支援向量機、決策樹等演算法。還有一種較常規的做法是採用廣義線性迴歸中的logistic迴歸或probit迴歸。廣義線性迴歸是探索“響應變數的期望”與“自變數”的關係,以實現對非線性關係的某種擬合。這裡面涉及到一個“連線函式”和一個“誤差函式”,“響應變數的期望”經過連線函式作

隨機森林Random Forest入門與實戰

前言 整合學習(ensemble learning)是通過構建並結合多個學習器來完成學習任務,主要包含兩類,一是個體學習器間存在強依賴關係、必須序列生成的序列化方法,比如前幾篇博文介紹提升學習方法、提升樹GBDT 詳解、xgboost等,主要思想是boosting迭代

R語言編寫自己的函式

10.1 函式的定義 > name <- function(arg_1, arg_2, ...) expression expression是一個R表示式(通常是表示式語句組),並使用引數arg_i來計算出一個數值,表示式的值就是函式的返回值。函式呼叫的形式通常

R2時間序列分析及應用之TSA安裝R語言

1,關於時間序列 時間序列分析(Time series analysis)是一種動態資料處理的統計方法。該方法基於隨機過程理論和數理統計學方法,研究隨機資料序列所遵從的統計規律,以用於解決實際問題。 2,安裝TSA 然後安裝TSA,但是TS

機器學習:隨機森林Random Forest

隨機森林,Random Forest,簡稱RF,是一個很強大的模型。要研究隨機森林,首先要研究決策樹,然後再去看RF是怎麼通過多顆決策樹的整合提高的模型效果。 決策樹分為三種,分別是ID3、C4.5和CART決策樹: ID3:資訊增益 C4.5:資訊增益率

R語言︱機器學習模型評估方案隨機森林演算法為例

      筆者寄語:本文中大多內容來自《資料探勘之道》,本文為讀書筆記。在剛剛接觸機器學習的時候,覺得在監督學習之後,做一個混淆矩陣就已經足夠,但是完整的機器學習解決方案並不會如此草率。需要完整的評價模型的方式。      常見的應用在監督學習演算法中的是計算平均絕對誤差(

機器學習(十三) 集成學習和隨機森林

討論 隨機 分享圖片 inf nbsp 集成學習 bsp image mage 一、什麽是集成學習 二、Soft Voting Classifier 更合理的投票,應該有的權值 三、

機器學習(十三) 集成學習和隨機森林

img over 是你 trees https info 入門級 一點 競賽 五、隨機森林和 Extra-Trees 六、Ada Boosting 和 Gradient Boosting 七、Stacking

《深度學習精要基於R語言》高清中文版PDF+高清英文版PDF+源代碼

dbd 語言 process sha http com cto oss RoCE 下載:https://pan.baidu.com/s/11zySQB5f0s9SXNgJdBOphg 更多最新的資料:http://blog.51cto.com/3215120 《深度學習精要