1. 程式人生 > >分類回歸樹什麽時候不能反映數據的真實趨勢

分類回歸樹什麽時候不能反映數據的真實趨勢

tor mod 參數設置 panda IT 一個 輸入 oos red

本質上lightgbm和xgboost都是基於分類回歸樹集成的學習算法,所以他們也會有一些先天缺陷:

當訓練數據的特征都集中在一個區間內,而測試數據偏離該區間較大時會出現不能擬合的情況,根本原因是因為分類回歸樹對於某一個葉子節點上的數據的目標值是采取該葉子節點的目標值均值做梯度提升最終確定預測值的。

比如我有個數據如下:
x,y
1,1
2,2
3,3
4,4
5,5
6,6
7,7
8,8
9,9
10,10
11,11
12,12
13,13
14,14
15,15
16,16
17,17
18,18
19,19
20,20
21,21
22,22
23,23
24,24
25,25
26,26
27,27
28,28
這個非常明顯 是 y=x
如果輸入測試數據 x =200 y應該是200

但是你用下面的程序測試,發現怎麽調參數都不能得到200
因為分類回歸樹將這些數據分到若幹個葉子節點上時候,采用的目標值最大只有28,他沒有再根據特征做線性關系的擬合。程序如下:

import pandas as pd
import lightgbm as lgb

path_train = "data.csv"
train1 = pd.read_csv(path_train)
testlist = [[200]]

# 采用lgb回歸預測模型,具體參數設置如下
model_lgb = lgb.LGBMRegressor(objective=‘regression‘,num_leaves=28,
                              learning_rate=0.1, n_estimators=2000,
                              max_bin = 28, bagging_fraction = 0.8,
                              bagging_freq = 5, feature_fraction = 0.2319,
                              feature_fraction_seed=9, bagging_seed=9,
                              min_data_in_leaf =10, min_sum_hessian_in_leaf = 100
                              ,max_depth = 10)
# 訓練、預測
model_lgb.fit(train1[[‘x‘]].fillna(-1), train1[‘y‘])
test1 = pd.DataFrame(testlist)
test1.columns = [‘x‘]
y_pred = model_lgb.predict(test1[[‘x‘]].fillna(-1))
print(y_pred)
print("lgb success")

套用一句話就是“沒有見過星空的民族。怎會有遨遊宇宙的夢想”
所以並不是什麽數據都可以直接往lightgbm,xgboost裏面灌的,要註意分析這個新的預測的數據的特征是否在訓練數據集的特征的空間範圍內。
不然挖掘的時候應該采用其他的方法分析。例如線性回歸,或者將上面的博客的分類回歸樹底層加一個線性回歸。

分類回歸樹什麽時候不能反映數據的真實趨勢