1. 程式人生 > >機器學習:train_test_split()拆分的略微不足之處!

機器學習:train_test_split()拆分的略微不足之處!

  把訓練集train拆分成訓練集 X_train, X_test, Y_train, Y_testd的時候,常常會用到這個方法——train_test_split

  X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.1, random_state = 0)

  但是這個方法有一點不妥之處。

  如果使用了這個方法去填充模型。model.fit(X_train,Y_train)

  再使用model.predict()去預測結果,

  那麼會產生偏差(bias)。

  原因很簡單,因為沒有使用全部資料X,Y去fit()

  當然,這也僅僅是略微不足之處,當你的資料集很大的時候,細微的拆分與不拆分,沒有太大的影響!