1. 程式人生 > >python庫sklearn中的一些函數(更新ing...)

python庫sklearn中的一些函數(更新ing...)

算法 str type 文檔 blog and 類別 num ont

sklearn是python的重要機器學習庫,其中封裝了大量的機器學習算法,如:分類、回歸、降維以及聚類;還包含了監督學習、非監督學習、數據變換三大模塊。sklearn擁有完善的文檔,使得它具有了上手容易的優勢;它內置了大量的數據集,節省了獲取和整理數據集的時間。因而,使其成為了廣泛應用的重要的機器學習庫。

學習連接:http://www.cnblogs.com/lianyingteng/p/7811126.html

下面是自己用到的一些函數:

1. train_test_split

  這個函數是用來將總的數據集劃分為訓練集和測試集的

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=4)

參數:

  1. X - 特征集

  2. y - 標簽集

  3. 0-1之前表示的測試集占比,整數的話表示測試集樣本數

  4. 隨機數種子,為1的話表示每次產生隨機數一樣

2. to_categorical(y, num_classes=None, dtype=‘float32‘)

  將整形標簽轉為onehot

Y_train = np_utils.to_categorical(y_train, nb_classes)
Y_test = np_utils.to_categorical(y_test, nb_classes)

  參數:

  1. int數組

  2. 標簽類別總數

python庫sklearn中的一些函數(更新ing...)