1. 程式人生 > >AI - 常見機器學習演算法簡介

AI - 常見機器學習演算法簡介

原文連結:http://usblogs.pwc.com/emerging-technology/machine-learning-methods-infographic/

應該使用哪種機器學習演算法?這在很大程度上依賴於可用資料的性質和數量以及每一個特定用例中你的訓練目標。
不要使用最複雜的演算法,除非其結果值得付出昂貴的開銷和資源。這裡給出了一些最常見的演算法,按使用簡單程度排序。

1. 決策樹(DT,Decision Trees)

在進行逐步應答過程中,典型的決策樹分析會使用分層變數或決策節點,例如,可將一個給定使用者分類成信用可靠或不可靠。

  • 優點:擅長對人、地點、事物的一系列不同特徵、品質、特性進行評估
  • 場景舉例:基於規則的信用評估、賽馬結果預測

 

2. 支援向量機(SVM,Support Vector Machine)

基於超平面(hyperplane),支援向量機可以對資料群進行分類。

  • 優點:支援向量機擅長在變數 X 與其它變數之間進行二元分類操作,無論其關係是否是線性的
  • 場景舉例:新聞分類、手寫識別

 

3. 迴歸(Regression)

迴歸可以勾畫出因變數與一個或多個因變數之間的狀態關係。
在這個例子中,將垃圾郵件和非垃圾郵件進行了區分。

  • 優點:迴歸可用於識別變數之間的連續關係,即便這個關係不是非常明顯
  • 場景舉例:路面交通流量分析、郵件過濾

 

4. 樸素貝葉斯分類(Naive Bayes Classification)

樸素貝葉斯分類器用於計算可能條件的分支概率。每個獨立的特徵都是「樸素」或條件獨立的,因此它們不會影響別的物件。
例如,在一個裝有共 5 個黃色和紅色小球的罐子裡,連續拿到兩個黃色小球的概率是多少?從圖中最上方分支可見,前後抓取兩個黃色小球的概率為 1/10。
樸素貝葉斯分類器可以計算多個特徵的聯合條件概率。

  • 優點:對於在小資料集上有顯著特徵的相關物件,樸素貝葉斯方法可對其進行快速分類
  • 場景舉例:情感分析、消費者分類

 

5. 隱馬爾可夫模型(Hidden Markov model)

顯馬爾可夫過程是完全確定性的——一個給定的狀態經常會伴隨另一個狀態。交通訊號燈就是一個例子。
相反,隱馬爾可夫模型通過分析可見資料來計算隱藏狀態的發生。隨後,藉助隱藏狀態分析,隱馬爾可夫模型可以估計可能的未來觀察模式。
在本例中,高或低氣壓的概率(這是隱藏狀態)可用於預測晴天、雨天、多雲天的概率。

  • 優點:容許資料的變化性,適用於識別(recognition)和預測操作
  • 場景舉例:面部表情分析、氣象預測

 

6. 隨機森林(Random forest)

隨機森林演算法通過使用多個帶有隨機選取的資料子集的樹(tree)改善了決策樹的精確性。
本例在基因表達層面上考察了大量與乳腺癌復發相關的基因,並計算出復發風險。

  • 優點:隨機森林方法被證明對大規模資料集和存在大量且有時不相關特徵的項(item)來說很有用
  • 場景舉例:使用者流失分析、風險評估

 

7. 迴圈神經網路(Recurrent neural network,RNN)

在任意神經網路中,每個神經元都通過 1 個或多個隱藏層來將很多輸入轉換成單個輸出。
迴圈神經網路(RNN)會將值進一步逐層傳遞,讓逐層學習成為可能。換句話說,RNN 存在某種形式的記憶,允許先前的輸出去影響後面的輸入。

  • 優點:迴圈神經網路在存在大量有序資訊時具有預測能力
  • 場景舉例:影象分類與字幕新增、政治情感分析

 

8. 長短期記憶(Long short-term memory,LSTM)與門控迴圈單元神經網路(gated recurrent unit nerual network,GRU)

早期的 RNN 形式是會存在損耗的。
儘管這些早期迴圈神經網路只允許留存少量的早期資訊,新近的長短期記憶(LSTM)與門控迴圈單元(GRU)神經網路都有長期與短期的記憶。
換句話說,這些新近的 RNN 擁有更好的控制記憶的能力,允許保留早先的值或是當有必要處理很多系列步驟時重置這些值,這避免了「梯度衰減」或逐層傳遞的值的最終 degradation。
LSTM 與 GRU 網路使得我們可以使用被稱為「門(gate)」的記憶模組或結構來控制記憶,這種門可以在合適的時候傳遞或重置值。

  • 優點:長短期記憶和門控迴圈單元神經網路具備與其它迴圈神經網路一樣的優點,但因為它們有更好的記憶能力,所以更常被使用
  • 場景舉例:自然語言處理、翻譯

 

9. 卷積神經網路(convolutional neural network,CNN)

卷積是指來自後續層的權重的融合,可用於標記輸出層。

  • 優點:當存在非常大型的資料集、大量特徵和複雜的分類任務時,卷積神經網路是非常有用的
  • 場景舉例:影象識別、文字轉語音、藥物發現

 

參考資訊