分類回歸樹什麽時候不能反映數據的真實趨勢

阿新 • • 發佈：2018-06-24

tor mod 參數設置 panda IT 一個輸入 oos red

本質上lightgbm和xgboost都是基於分類回歸樹集成的學習算法，所以他們也會有一些先天缺陷：

當訓練數據的特征都集中在一個區間內，而測試數據偏離該區間較大時會出現不能擬合的情況，根本原因是因為分類回歸樹對於某一個葉子節點上的數據的目標值是采取該葉子節點的目標值均值做梯度提升最終確定預測值的。

比如我有個數據如下：
x,y
1,1
2,2
3,3
4,4
5,5
6,6
7,7
8,8
9,9
10,10
11,11
12,12
13,13
14,14
15,15
16,16
17,17
18,18
19,19
20,20
21,21
22,22
23,23
24,24
25,25
26,26
27,27
28,28
這個非常明顯是 y=x
如果輸入測試數據 x =200 y應該是200

但是你用下面的程序測試，發現怎麽調參數都不能得到200
因為分類回歸樹將這些數據分到若幹個葉子節點上時候，采用的目標值最大只有28，他沒有再根據特征做線性關系的擬合。程序如下：

import pandas as pd
import lightgbm as lgb

path_train = "data.csv"
train1 = pd.read_csv(path_train)
testlist = [[200]]

# 采用lgb回歸預測模型，具體參數設置如下
model_lgb = lgb.LGBMRegressor(objective=‘regression‘,num_leaves=28,
                              learning_rate=0.1, n_estimators=2000,
                              max_bin = 28, bagging_fraction = 0.8,
                              bagging_freq = 5, feature_fraction = 0.2319,
                              feature_fraction_seed=9, bagging_seed=9,
                              min_data_in_leaf =10, min_sum_hessian_in_leaf = 100
                              ,max_depth = 10)
# 訓練、預測
model_lgb.fit(train1[[‘x‘]].fillna(-1), train1[‘y‘])
test1 = pd.DataFrame(testlist)
test1.columns = [‘x‘]
y_pred = model_lgb.predict(test1[[‘x‘]].fillna(-1))
print(y_pred)
print("lgb success")

套用一句話就是“沒有見過星空的民族。怎會有遨遊宇宙的夢想”
所以並不是什麽數據都可以直接往lightgbm，xgboost裏面灌的，要註意分析這個新的預測的數據的特征是否在訓練數據集的特征的空間範圍內。
不然挖掘的時候應該采用其他的方法分析。例如線性回歸，或者將上面的博客的分類回歸樹底層加一個線性回歸。

分類回歸樹什麽時候不能反映數據的真實趨勢

tor mod 參數設置 panda IT 一個輸入 oos red 本質上lightgbm和xgboost都是基於分類回歸樹集成的學習算法，所以他們也會有一些先天缺陷：當訓練數據的特征都集中在一個區間內，而測試數據偏離該區間較大時會出現不能擬合的情況，根本原因是因為分

分類回歸樹什麽時候不能反映數據的真實趨勢

分類回歸樹什麽時候不能反映數據的真實趨勢

對於分類回歸樹和lightgbm的理解

什麽通用數據交換格式更好

什麽是數據倉庫總線架構

這裏突然想到什麽是數據結構

什麽是數據庫

科普一下微信62數據是什麽,62數據腳本是什麽原理

1-1.緒論-什麽是數據結構

什麽是數據脫敏？

一篇文章讓你知道什麽是數據挖掘

看完，你就理解什麽是數據的全量、增量、差異備份了

金萬城主管什麽是數據庫?

什麽是數據結構

什麽是數據結構，為什麽我們需要數據結構？

1.1什麽是數據倉庫

什麽是數據庫安全審計

1.1 什麽是數據結構

CART 分類與回歸樹

什麽是數組

cart回歸樹算法過程

分類回歸樹什麽時候不能反映數據的真實趨勢

相關推薦