1. 程式人生 > >3-----A Forcast for Bicycle Rental Demand Based on Random Forests and Multiple Linear Regression

3-----A Forcast for Bicycle Rental Demand Based on Random Forests and Multiple Linear Regression

基於自行車租賃需求的預測隨機森林與多元線性迴歸

內蒙古大學的

本文要求結合歷史使用模式用天氣資料預測自行車租賃需求

this paper proposes a random forest model and a GBM packet to
improve the decision tree. The results and the accuracy of multiple
regression analysis are greatly improved when use of random forest

這提出了一個隨機森林模型和一個GBM資料包。

改進決策樹。多重結果與精度

隨機森林的迴歸分析有了很大的改進。

 

 

然而,很少有人研究天氣因素對氣候變化的影響。迄今為止公共自行車租賃的數量。本文對我國的租賃需求進行了預測。

 

根據資料的特點,我們採用多元線性的方法迴歸分析與隨機森林兩種預測方法

Date time - hourly date+ timestamp
season - 1 = spring, 2 = summer, 3 = fall, 4 = winter

天氣

1:清澈,少雲,多雲,多雲。

2:霧+陰,霧+碎雲,霧+少

雲霧

3:小雪、小雨+雷雨+散落

雲,微雨+散雲

攝氏溫度

ATEMP -“感覺像”攝氏溫度

溼度相對溼度

風速-風速

總數租金總數

天氣、溫度、ATEMP、溼度、風速和計數均為

數值變數、日期時間、季節和天氣是離散的。

不連續變數

 

 

隨機森林的構建

因為隨機森林不是決策樹修剪,

一種典型的單分類器,訓練集的第一步是

遞迴分析,生成倒置樹等形狀

結構;從根節點對樹的第二步分析

對於葉節點路徑,產生一系列規則;最後,根據

這些規則,分類或預測新資料。這個

以下是隨機森林模型過程的結構:

(1)從樣本集中隨機選取n個樣本;

取樣;

(2)從所有特徵中隨機選擇K特徵;

利用這些特徵構造決策樹;

(3)重複上述兩步M次,生成M決策

樹形模型,隨機森林的形成;

(4)對於新的資料,在每個樹決策之後,最後做出預言;

 

 

GBM提高隨機決策樹的容量

森林

在具有隨機森林的決策樹結構中,在

為了提高效率,我們使用GBM軟體包〔12〕。

提高決策樹的容量、每一損失函式

在以前的梯度下降模型中建立了模型。

 

在GBM封裝中,重要引數設定如下:

?分佈

?N.樹

?收縮率

?袋餾份

?互動作用深度

收縮率為0.005,N.樹為5000。