1. 程式人生 > >吳恩達機器學習筆記 —— 15 降維

吳恩達機器學習筆記 —— 15 降維

本章重點講述了降維方法以及其中最主要的PCA主成分分析的原理、使用

降維的作用:資料壓縮與視覺化

降維的第一個作用就是進行資料的壓縮,解決磁碟和計算的問題。比如把二維資料降維到一維:

或者資料從三維降維到2維。

降維的另一個作用就是進行視覺化,比如我們的資料有很多維度,如果想要在圖形上展示各個資料,分析其關係是很難的。那麼就可以把資料降維到二維:

降維的問題規劃

考慮到資料的可分性,應該尋找一條直線(或者一個平面),使得資料投影到這個平面的距離最短,資料分佈最好(各個點比較分散),比如下面的圖中,紅色的線就要比粉色的好很多,因為粉色的線上所有的點幾乎都要重疊到一起了。

PCA總結來說,其實就是尋找k個方向向量,使得所有的點投影到這個k個向量組成的平面。如果是2維,就是尋找一條直線的方向,方向的正負並不影響最後的結果


需要注意的是,PCA與線性迴歸是不同的:第一個不同的點是線性迴歸裡面為了方便計算,誤差取的是y值的差;而PCA裡面計算的投影的距離,因此計算的是點到直線的距離。另一個不同的點就是線性迴歸裡面需要區分x和y,而PCA裡面所有的x都是等價的。

PCA的計算方法

計算PCA首先要做的就是資料預處理,需要先對所有的資料進行均值化,即求出均值做差。其中sj是max-min


在PCA裡面資料降維其實可以換一種思考的角度,如果資料從2維降到1維,其實就是尋找一個函式使得(x1,x2)變成z1。如果是n維,就是尋找一個方法,使得結果變成k維。

其實這個過程就可以通過SVD來做,針對SVD可以在搜尋其他的資料。在協同過濾裡面也是有它的使用場景的。

如何選擇k值

PS:這兩節看的很蒙——因為字母放反了

PCA用於降維,k是降維後的特徵維度,如何選擇k值呢?一般來說k值如果等於n,那麼方差不變,就說保留了100%的方差變化;如果為0,那麼方差相當於全部都忽略了。因此可以通過下面的計算公式,選擇誤差範圍在0.01以內的k值,這樣可以說保留了99%的主成分。

應用的建議

關於使用

PCA也屬於一種演算法,它只能在訓練集上訓練執行;在測試集或者交叉驗證集上只能使用訓練的結果直接用來做對映。

關於k的選擇

在使用PCA進行資料的壓縮時,一般都要保證方差的保留百分比在99%。而在視覺化的時候由於畫圖的需要,K值可以選擇2或者3。

關於過擬合

PCA可以用來降低維度加快訓練速度,但是不能用來避免過擬合。因為PCA在考慮資料降維的時候,並沒有考慮y的因素,只是通過分析x,通過方差的百分比來保留資訊,此時有可能丟棄的是與y相關的資訊。如果想解決過擬合的問題,還是推薦使用正則化。

關於濫用

不用濫用PCA,很多人(我就這麼幹過!)設計邏輯迴歸的時候,都是直接按照下面的流程來做:1 獲得資料樣本;2 執行PCA降維;3訓練LR;4測試。推薦的方式還是不使用PCA訓練看看效果,再用PCA試一下做一下對比。

相關推薦

機器學習筆記 —— 15

本章重點講述了降維方法以及其中最主要的PCA主成分分析的原理、使用 降維的作用:資料壓縮與視覺化 降維的第一個作用就是進行資料的壓縮,解決磁碟和計算的問題。比如把二維資料降維到一維: 或者資料從三維降維到2維。 降維的另一個作用就是進行視覺化,比如我們的資料有很多維度,如果想要在圖形上展示各個資料,

[機器學習筆記]141-2的應用資料壓縮與資料視覺化

14.降維 覺得有用的話,歡迎一起討論相互學習~Follow Me 14.1動機一:資料壓縮 降維 也是一種無監督學習的方法,降維並不需要使用資料的標籤。 降維 的其中一個目的是 資料壓

[機器學習筆記]15.1-3非監督學習異常檢測算法/高斯回回歸模型

閾值 訓練集 jpg -a 情況 color 訓練 ase 需要 15.異常檢測 Anomaly detection 覺得有用的話,歡迎一起討論相互學習~Follow Me 15.1問題動機 Problem motivation 飛機引擎異常檢測 假想你是一個飛機引擎制造

[機器學習筆記]15非監督學習異常檢測7-8使用多元高斯分布進行異常檢測

進行 平均值 info 錯誤 blog 占用 ron 關系 http 15.異常檢測 Anomaly detection 覺得有用的話,歡迎一起討論相互學習~Follow Me 15.7-8 多變量高斯分布/使用多元高斯分布進行異常檢測 -Multivariate Gaus

[機器學習筆記]15.1-3非監督學習異常檢測演算法/高斯回回歸模型

15.異常檢測 Anomaly detection 覺得有用的話,歡迎一起討論相互學習~Follow Me 15.1問題動機 Problem motivation 飛機引擎異常檢測

[機器學習筆記]15非監督學習異常檢測4-6構建與評價異常檢測系統

15.異常檢測 Anomaly detection 覺得有用的話,歡迎一起討論相互學習~Follow Me 15.4開發和評價一個異常檢測系統 Developing and Evaluati

機器學習 - PCA演算法 機器學習 - PCA演算法

原 吳恩達機器學習 - PCA演算法降維 2018年06月25日 13:08:17 離殤灬孤狼 閱讀數:152 更多

Coursera-AndrewNg()機器學習筆記——第三周

訓練 ros 方便 font 就是 梯度下降 全局最優 用法 郵件 一.邏輯回歸問題(分類問題) 生活中存在著許多分類問題,如判斷郵件是否為垃圾郵件;判斷腫瘤是惡性還是良性等。機器學習中邏輯回歸便是解決分類問題的一種方法。二分類:通常表示為y?{0,1},0:“Negat

機器學習筆記 —— 5 多變量線性回歸

擬合 進行 image 價格 常用 從表 cnblogs 優化 深度 本篇主要講的是多變量的線性回歸,從表達式的構建到矩陣的表示方法,再到損失函數和梯度下降求解方法,再到特征的縮放標準化,梯度下降的自動收斂和學習率調整,特征的常用構造方法、多維融合、高次項、平方根,最後基

機器學習筆記 —— 9 神經網絡學習

滿了 線性回歸 復雜 amp 技術分享 tps 機器 神經網絡 前饋型神經網絡 本章講述了神經網絡的起源與神經元模型,並且描述了前饋型神經網絡的構造。 更多內容參考 機器學習&深度學習 在傳統的線性回歸或者邏輯回歸中,如果特征很多,想要手動組合很多有效的特征是不

機器學習筆記(六) —— 支持向量機SVM

次數 括號 圖片 最小 我們 支持向量機svm UNC 意思 strong 主要內容: 一.損失函數 二.決策邊界 三.Kernel 四.使用SVM 一.損失函數 二.決策邊界 對於: 當C非常大時,括號括起來的部分就接近於0,所以就變成了:

機器學習筆記 —— 17 推薦系統

htm 特征 問題 這就是 ref 圖片 系統 得出 工業 本章講述了推薦系統相關的知識,比如基於內容的推薦算法、基於協同過濾的推薦算法以及實踐中遇到的問題。 更多內容參考 機器學習&深度學習 推薦系統是機器學習在工業界應用最廣泛的方向,很多電子商務類、咨詢類的

機器學習筆記 —— 12 機器學習系統設計

不知道 cor 算法 項目 詞語 樣本 我們 們的 ... http://www.cnblogs.com/xing901022/p/9362339.html 本章主要圍繞機器學習的推薦實踐過程以及評測指標,一方面告訴我們如何優化我們的模型;另一方面告訴我們對於分類的算法

機器學習筆記 —— 14 無監督學習

www 最簡 業務 一次 曲線 logs img 下一個 com http://www.cnblogs.com/xing901022/p/9368432.html 本章講述的是第一個無監督的機器學習算法,在無監督的算法中,樣本數據只有特征向量,並沒有標註的y值。比如聚類

機器學習筆記 —— 19 應用舉例:照片OCR(光學字符識別)

參考 https ocr 噪聲 也說 字符 www. 定位 cnblogs http://www.cnblogs.com/xing901022/p/9374258.html 本章講述的是一個復雜的機器學習系統,通過它可以看到機器學習的系統是如何組裝起來的;另外也說明了一

機器學習筆記 —— 11 應用機器學習的建議

切分 image 們的 正則化 如果 mage 樣本 獲得 建議 http://www.cnblogs.com/xing901022/p/9356783.html 本篇講述了在機器學習應用時,如何進行下一步的優化。如訓練樣本的切分驗證?基於交叉驗證的參數與特征選擇?在訓

機器學習筆記

叠代 公式 spec end webkit 測量 ase letter s函數 1 機器學習的含義 (1)Field of study that gives computers the ability to learn without being explicitly p

機器學習筆記1-機器學習概述

可能 perf hat 定義 視頻 nbsp 這樣的 spec 學習能力 今天看了視頻的第一章-緒論:初識機器學習(Machine Learning) 1、定義: Arthur Samuel(1959).Machine Learning:Field of study tha

機器學習筆記2-監督學習

word ins problems 一個 should regress ssi pri read 英文; Supervised Learning   In supervised learning, we are given a data set and already kn

機器學習筆記4-單變量線性回歸

alt 方法 bsp 目標 .com 函數 bubuko 機器學習 絕對值 今天看個5個課時的視頻,對假設函數、代價函數、以及梯度下降有了一個大概的了解。 假設函數: 代價函數: 我們的目標就是求得J的最小值 梯度下降:在一個上坡上找一個點,求得這個點周圍的絕對值最大的導數