1. 程式人生 > >《Python資料分析與挖掘實戰》筆記(五):資料建模

《Python資料分析與挖掘實戰》筆記(五):資料建模

分類與預測 主要分類與預測演算法 迴歸分析 確定預測值與其他變數關係。線性、非線性、Logistic、嶺迴歸、主成分迴歸等 決策樹 自頂向下分類 人工神經網路 用神經網路表示輸入與輸出之間的關係 貝葉斯網路 又稱信度網路,是不確定知識表達和推理領域最有效的理論模型之一 支援向量機 將低維非線性可分轉化為高維線性可分進行分析 主要回歸模型分類 線性迴歸 因/自變數是線性關係 對一個或多個自/因變數線性建模,用最小二乘法求係數 非線性迴歸 因/自變數是非線性 非線性建模 Logistic迴歸 因變數為0或1 廣義線性迴歸特例,利用Logistic函式將因變數控制0-1內表示取值為1的概率 嶺迴歸 參與建模的自變數間具有多重共線性 改進的最小二乘法 主成分迴歸 同上 根據PCA提出,是引數估計的一種有偏估計 邏輯迴歸——Scikit-Learn 決策樹——sklearn.tree;輸出一個tree.dot檔案,許安裝Graphviz進行視覺化 人工神經網路——keras BP神經網路 資訊正傳播,誤差逆傳播 LM神經網路 給予梯度下降法和牛頓法的多層前饋神經網路,迭代次數少,收斂塊,精度高 RBF徑向基神經網路 能以任意精度逼近任意連續函式,輸入層-隱含層是非線性,隱含層-輸出成是線性,特別適合解決分類問題 FNN模糊神經網路 具有模糊權係數或輸入訊號是模糊兩的神經網路,匯聚NN和模糊系統的有點 GMDH神經網路 也稱多項式網路,網路結構在訓練中變化 ANFIS自適應神經網路 NN鑲嵌在一個全模糊的結構中,自動產生、修正、高度概括出最佳隸屬函式和模糊規則 SVM——sklearn.svm 隨機森林——sklearn.ensemble 樸素貝葉斯——sklearn.naive_bayes 建模的第一步都是建立一個空白的物件,然後設定模型引數,利用fit進行巡林啊,最後用predict方法預測結果,之後進行一些評估如score等
誤差評價:絕對誤差、相對誤差、平均絕對誤差、均方誤差、均方根誤差、平均絕對百分誤差、Kappa統計、識別準確度、識別精確率、反饋率、ROC曲線、混淆矩陣 聚類分析 常用方法:劃分方法、層次分析方法、基於密度的方法、基於網格的方法、給予模型的方法 常用演算法:K-Means、K-中心點、系統聚類(多層次聚類) 評價方法:purity評價法(正確的比例)、RI評價法、F值評價法 聚類視覺化工具——TSNE 關聯規則:也稱為購物籃分析,目標是找出各項之間的關係 常用演算法:Apriori、FP-Tree、Eclat演算法、灰色關聯法 時序模式:給定一個已被觀測的時間序列,預測該序列的未來值 常用模型:平滑法、趨勢你合法、組合模型、AR模型、MA模型、ARMA模型、ARIMA、ARCH、GARCH模型及衍生 python主要時序演算法函式:acf自相關,plot_acf畫自相關係數圖、pacf計算偏相關係數、plot_pacf畫偏相關係數圖、adfuller對觀測值序列進行單位根檢驗、diff差分計算、ARIMA建立ARIMA時序模型、summary或summaty2給出ARIMA模型報告、aic/bic/hqic計算ARIMA模型的指標值、forecast預測、acorr_ljungbox檢驗白噪聲 離群點檢測
成因:資料來源不同、自然變異、測量和收集誤差 型別:全域性離群點和區域性離群點;數值型離群點和分型別離群點;一維離群點和多維離群點 檢測方法:基於統計、基於鄰近度、基於密度、基於聚類