3-----A Forcast for Bicycle Rental Demand Based on Random Forests and Multiple Linear Regression
基於自行車租賃需求的預測隨機森林與多元線性迴歸
內蒙古大學的
本文要求結合歷史使用模式用天氣資料預測自行車租賃需求
this paper proposes a random forest model and a GBM packet to
improve the decision tree. The results and the accuracy of multiple
regression analysis are greatly improved when use of random forest
這提出了一個隨機森林模型和一個GBM資料包。
改進決策樹。多重結果與精度
隨機森林的迴歸分析有了很大的改進。
然而,很少有人研究天氣因素對氣候變化的影響。迄今為止公共自行車租賃的數量。本文對我國的租賃需求進行了預測。
根據資料的特點,我們採用多元線性的方法迴歸分析與隨機森林兩種預測方法
Date time - hourly date+ timestamp
season - 1 = spring, 2 = summer, 3 = fall, 4 = winter
天氣
1:清澈,少雲,多雲,多雲。
2:霧+陰,霧+碎雲,霧+少
雲霧
3:小雪、小雨+雷雨+散落
雲,微雨+散雲
攝氏溫度
ATEMP -“感覺像”攝氏溫度
溼度相對溼度
風速-風速
總數租金總數
天氣、溫度、ATEMP、溼度、風速和計數均為
數值變數、日期時間、季節和天氣是離散的。
不連續變數
隨機森林的構建
因為隨機森林不是決策樹修剪,
一種典型的單分類器,訓練集的第一步是
遞迴分析,生成倒置樹等形狀
結構;從根節點對樹的第二步分析
對於葉節點路徑,產生一系列規則;最後,根據
這些規則,分類或預測新資料。這個
以下是隨機森林模型過程的結構:
(1)從樣本集中隨機選取n個樣本;
取樣;
(2)從所有特徵中隨機選擇K特徵;
利用這些特徵構造決策樹;
(3)重複上述兩步M次,生成M決策
樹形模型,隨機森林的形成;
(4)對於新的資料,在每個樹決策之後,最後做出預言;
GBM提高隨機決策樹的容量
森林
在具有隨機森林的決策樹結構中,在
為了提高效率,我們使用GBM軟體包〔12〕。
提高決策樹的容量、每一損失函式
在以前的梯度下降模型中建立了模型。
在GBM封裝中,重要引數設定如下:
?分佈
?N.樹
?收縮率
?袋餾份
?互動作用深度
收縮率為0.005,N.樹為5000。