1. 程式人生 > >記sklearn庫的使用(1)

記sklearn庫的使用(1)

本篇只只在使用,不記載原理,當字典用。排版不是很好,可以使用搜索ctrl+F

  1. PCA主成成分分析
    from sklearn.decomposition import PCA # 主成分分析演算法
    pca = PCA(n_components= 5) # 選擇成分5個
    pca.fit(X_train) # 訓練X
    X_train = pca.fit_transform(X_train)

    在使用真是資料預測的時候這樣寫:
    X_test = pca.fit_transform(X_test)

    其他的方法也是如此
    from sklearn.manifold import TSNE 等方法

  2. 超引數空間搜尋
    clf 是你自己的分類器
    from sklearn.model_selection import GridSearchCV
    para = {
    ‘learning_rate’:[0.008,0.01,0.013,0.05],
    ‘n_estimators’:[660,500,550],
    ‘max_features’:[2,3,4,5],
    ‘subsample’:[0.87,0.9,0.93,0.88,0.96]
    }
    grid = GridSearchCV(clf,para)
    然後可以輸出grid的各種屬性等知曉那些引數最佳的值,使用者值重新進行分類器分類
    同時也可以在GridSearchCV中有很多引數屬性,比如cv,使用交叉驗證等,可以按ctrl+B檢視原始碼。
    3.有很多剛開始學的會發覺,分類器只輸出類別,但是想輸出概率,別慌:
    分類器有一個類別是
    predict_proba(),這個就是輸出概率值啦