1. 程式人生 > >機器學習掌握知識點

機器學習掌握知識點

一、人工智慧學習演算法分類

人工智慧演算法大體上來說可以分類兩類:基於統計的機器學習演算法(Machine Learning)和深度學習演算法(Deep Learning)

總的來說,在sklearn中機器學習演算法大概的分類如下:

1. 純演算法類

(1).迴歸演算法 
(2).分類演算法 
(3).聚類演算法 
(4)降維演算法 
(5)概率圖模型演算法 
(6)文字挖掘演算法 
(7)優化演算法 
(8)深度學習演算法

2.建模方面

(1).模型優化 
(2).資料預處理

二、詳細演算法

1.分類演算法

(1).LR (Logistic Regression,邏輯迴歸又叫邏輯分類) 
(2).SVM (Support Vector Machine,支援向量機) 
(3).NB (Naive Bayes,樸素貝葉斯) 
(4).DT (Decision Tree,決策樹)

  • 1).C4.5
  • 2).ID3
  • 3).CART

(5).整合演算法

  • 1).Bagging
  • 2).Random Forest (隨機森林)
  • 3).GB(梯度提升,Gradient boosting)
  • 4).GBDT (Gradient Boosting Decision Tree)
  • 5).AdaBoost
  • 6).Xgboost

(6).最大熵模型

2.迴歸演算法

(1).LR (Linear Regression,線性迴歸) 
(2).SVR (支援向量機迴歸) 
(3). RR (Ridge Regression,嶺迴歸)

3.聚類演算法

(1).Knn 
(2).Kmeans 演算法 
(3).層次聚類 
(4).密度聚類

4.降維演算法

(1).SGD (隨機梯度下降)

5.概率圖模型演算法

(1).貝葉斯網路 
(2).HMM 
(3).CRF (條件隨機場)

6.文字挖掘演算法

(1).模型

  • 1).LDA (主題生成模型,Latent Dirichlet Allocation)
  • 2).最大熵模型

(2).關鍵詞提取

  • 1).tf-idf
  • 2).bm25
  • 3).textrank
  • 4).pagerank
  • 5).左右熵 :左右熵高的作為關鍵詞
  • 6).互資訊:

(3).詞法分析

  • 1).分詞 
    – ①HMM (因馬爾科夫) 
    – ②CRF (條件隨機場)
  • 2).詞性標註
  • 3).命名實體識別

(4).句法分析

  • 1).句法結構分析
  • 2).依存句法分析

(5).文字向量化

  • 1).tf-idf
  • 2).word2vec
  • 3).doc2vec
  • 4).cw2vec

(6).距離計算

  • 1).歐氏距離
  • 2).相似度計算

7.優化演算法

(1).正則化

  • 1).L1正則化
  • 2).L2正則化

8.深度學習演算法

(1).BP 
(2).CNN 
(3).DNN 
(3).RNN 
(4).LSTM

三、建模方面

1.模型優化·

  • (1).特徵選擇
  • (2).梯度下降
  • (3).交叉驗證
  • (4).引數調優
  • (5).模型評估:準確率、召回率、F1、AUC、ROC、損失函式

2.資料預處理

    • (1).標準化
    • (2).異常值處理
    • (3).二值化
    • (4).缺失值填充: 支援均值、中位數、特定值補差、多重插補