1. 程式人生 > >HCIE-BigData學習筆記-支援向量機

HCIE-BigData學習筆記-支援向量機

1、華為MLS分類模型中資料的檢視

真陰 偽陰
真陽 偽陽

2、要將所要結果輸出偽目標

3、懲罰係數 當我們構建出最大超平面的時候,本來是輸入屬性,經過判斷之後,它是屬於不存款的一邊,但是真實是存款的,我們就可以改變懲罰係數來將本來落在不存款一邊的資料變成存款的,懲罰係數越大,擬合的越多,引數調整的好,可以解決欠擬合(over-fitting )問題,調整太多,可能出現過擬合(under-fitting)

4、欠擬合 欠擬合指的是模型在訓練和預測時表現都不好的情況。一個欠擬合的機器學習模型不是一個良好的模型並且由於在訓練資料上表現不好這是顯然的。欠擬合通常不被討論,因為給定一個評估模型表現的指標的情況下,欠擬合很容易被發現。矯正方法是繼續學習並且試著更換機器學習演算法。

5、過擬合 過擬合指的是模型對於訓練資料擬合程度過當的情況。當某個模型過度的學習訓練資料中的細節和噪音,以至於模型在新的資料上表現很差,我們稱過擬合發生了。這意味著訓練資料中的噪音或者隨機波動也被當做概念被模型學習了。而問題就在於這些概念不適用於新的資料,從而導致模型泛化效能的變差。過擬合更可能在無引數非線性模型中發生,因為學習目標函式的過程是易變的具有彈性的。同樣的,許多的無引數器學習演算法也包括限制約束模型學習概念多少的引數或者技巧。例如,決策樹就是一種無引數機器學習演算法,非常有彈性並且容易受過擬合訓練資料的影響。這種問題可以通過對學習過後的樹進行剪枝來解決,這種方法就是為了移除一些其學習到的細節。

6、ROC 受試者工作特徵曲線 (receiver operating characteristic curve,簡稱ROC曲線),又稱為感受性曲線(sensitivity curve)。得此名的原因在於曲線上各點反映著相同的感受性,它們都是對同一訊號刺激的反應,只不過是在兩種不同的判定標準下所得的結果而已。受試者工作特徵曲線就是以假陽性概率(False positive rate)為橫軸,真陽性(True positive rate)為縱軸所組成的座標圖,和受試者在特定刺激條件下由於採用不同的判斷標準得出的不同結果畫出的曲線。1

7、AUC解釋 ROC 曲線下的面積就是 AUC 面積,所以 ROC 曲線約拱,AUC 面積越大,AUC 的面積就是真陽率乘以偽陽率。 AUC=1,完美分類器,採用這個預測模型時,不管設定什麼閾值都能得出完美預測。絕大多數預測的場合,不存在完美分類器。 0.5<AUC<1,優於隨機猜測。這個分類器(模型)妥善設定閾值的話,能有預測價值。 AUC=0.5,跟隨機猜測一樣(例:丟銅板),模型沒有預測價值。 AUC<0.5,比隨機猜測還差;但只要總是反預測而行,就優於隨機猜測,因此不存在。

8、各率解釋 準確率:(真陽+真陰) /樣本總數 召回率:真陽/真陽樣本總數 精確率:真陽/(真陽+偽陽)

  1. ROC曲線最早是運用在軍事上,後來逐漸運用到醫學領域。相傳在第二次世界大戰期間,雷達兵的任務之一就是死死地盯住雷達顯示器,觀察是否有敵機來襲。理論上講,只要有敵機來襲,雷達螢幕上就會出現相應的訊號,但是實際上,有時如果有飛鳥出現在雷達掃描區域時,雷達螢幕上有時也會出現訊號。這種情況令雷達兵煩惱不已:如果過於謹慎,凡是有訊號就確定為敵機來襲,顯然會增加誤報風險;如果過於大膽,凡是訊號都認為飛鳥,又會增加漏報的風險。每個雷達兵都竭盡所能地研究飛鳥訊號和飛機訊號之間的區別,以便增加預報的準確性。但問題在於,每個雷達兵都有自己的判別標準,有的雷達兵比較謹慎,容易出現誤報;有的雷達兵則比較膽大,容易出現漏報。為了研究每個雷達兵預報的準確性,雷達兵的管理者彙總了所有雷達兵的預報特點,特別是他們漏報和誤報的概率,並將這些概率畫到一個二維座標裡面。這個二維座標的縱座標為敏感性,即在所有敵機來襲的事件中,每個雷達兵準確預報的概率。而橫座標則特1-特異性,表示了在所有非敵機來襲訊號中,雷達兵預報錯誤的概率。由於每個雷達兵的預報標準不同,且得到的敏感性和特異性的組合也不同。將這些雷達兵的預報效能進行彙總後,雷達兵管理員發現他們剛好在一條曲線上,這條曲線就是我們經常在醫學雜誌上看見的ROC曲線。 ↩︎