Machine Learning第八講【非監督學習】--(三)主成分分析(PCA)
一、Principal Component Analysis Problem Formulation(主成分分析構思)
首先來看一下PCA的基本原理:
PCA會選擇投影誤差最小的一條線,由圖中可以看出,當這條線是我們所求時,投影誤差比較小,而投影誤差比較大時,一定是這條線偏離最優直線。
PCA的方向:
從圖上的分析,我們可能很疑惑PCA和線性迴歸如此地相似,那麼兩者是一回事嗎?下面的圖可以很好地給出解釋:
二、Principal Component Analysis Algorithm(主成分分析演算法)
相關推薦
Machine Learning第八講【非監督學習】-- (四)PCA應用
一、Reconstruction from Compressed Representation(壓縮特徵的復原) 本部分主要講我們如何將已經壓縮過的特徵復原成原來的,如下圖: 左邊的二維圖是未縮減維數之前的情況,下面的一維圖是利用縮減之後的情況,我們利用公式可以得到x的近似值,如右圖,
Machine Learning第八講【非監督學習】--(三)主成分分析(PCA)
一、Principal Component Analysis Problem Formulation(主成分分析構思) 首先來看一下PCA的基本原理: PCA會選擇投影誤差最小的一條線,由圖中可以看出,當這條線是我們所求時,投影誤差比較小,而投影誤差比較大時,一定是這條線偏離最優直線。
Machine Learning第八講【非監督學習】-- (二)動因
一、Motivation I: Data Compression(動因I:資料壓縮) 下面是2個降維處理的例項: 例項1:將cm和inch的2維資料降成1維資料: 例項2:降3維資料降成2維資料: 二、Motivation II: Visualization(動因II:視
Machine Learning第十講【大規模機器學習】
本部分主要包括如下內容: Learning With Large Datasets (大資料集訓練模型) Stochastic Gradient Descent (隨機梯度下降演算法) &n
【機器學習】資料降維—主成分分析(PCA)
本文程式碼推薦使用Jupyter notebook跑,這樣得到的結果更為直觀。 主成分分析(PCA) 特徵抽取通常用於提高計算效率,降低維度災難。 主成分分析(Principe component analysis,PCA): 是一種廣泛應用於不同領域的無監督
Machine Learning第八講[非監督學習] -- (一)聚類
一、Unsupervised Learning: Introduction(非監督學習簡介) 之前介紹的線性迴歸、logistic迴歸以及神經網路等都是監督學習的例子,通過給出一系統樣本,通過這些樣本去訓練模型進行預測,在這些樣本中,是包含y標籤的,即實際值。 在非監督學習中,我們給一系列樣
Machine Learning第九講【推薦系統】-- (二)協同過濾
一、Collaborative Filtering(協同過濾) 協同過濾能夠自行學習所需要使用的特徵。 來看下面的例子: 在之前講的基於內容的推薦系統中,我們需要事先建立特徵並知道特徵值,這是比較困難的。 假設我們某一使用者的喜好,即假如Alice、Bob喜歡romance的電影,carol
Machine Learning第九講【推薦系統】--(一)基於內容的推薦系統
符號介紹: 對於每一個使用者j,假設我們已經通過學習找到引數,則使用者j對電影i的評分預測值為:。 對於上面的例子:
Machine Learning第九講【異常檢測】-- (三)多元高斯分佈
一、Multivariate Gaussian Distribution(多元高斯分佈) 資料中心例子: 因為上面的原因,會帶來一些誤差,因此我們引入了改良版的演算法: 我們不再單獨地將p(x1),p(x2),p(x3)訓練模型,而是將這些引數都放在一個模型裡,
Machine Learning第九講【異常檢測】-- (二)建立一個異常檢測系統
一、Developing and Evaluating an Anomaly Detection System(異常檢測系統的衡量指標) 對於某一演算法,我們可以通過藉助某些數字指標來衡量演算法的好壞,仍舊以飛機引擎的例子來說: 假設有10000個正常的引擎,20個有瑕疵的引擎(異常)
Machine Learning第九講【異常檢測】--(一)密度估計
一、Problem Motivation(問題引入) 異常檢測一般應用在非監督學習的問題上,如圖,我們可以通過已知的資料集,訓練模型 根據此模型進行異常檢測: 在使用這些資料訓練的過程中,我們假設這些資料是正常的。 我們可以把異常檢測應用在網站欺詐預測上,比如可以根據使用者平時
Machine Learning第七講SVM --(二)核函式
一、Kernels I(核函式I) 在非線性函式中,假設函式為: 將表示式改變一下,將其寫為: 聯想到上次講到的計算機視覺的例子,因為需要很多畫素點,因此若f用這些高階函式表示,則計算量將會很大,那麼對於我們有沒有更好的選擇呢? 由此引入核函式的概念。 對於給定
Machine Learning第七講SVM -- (三)SVM在實踐中的應用
Using SVM in Practice(SVM在實踐中的應用) 在實際應用中,並不推薦 自己寫SVM的演算法,可以使用別人已經寫好的,那我們需要做什麼呢? 如下圖: 對於核函式的選型,我們一般會選擇線性核函式和高斯核函式。 一般情況下,我們需要自己提供核函式,必
Machine Learning 第七講SVM -- (一)最大間隔分類
一、Optimization Objective(SVM優化目標) 在logistic迴歸模型中,g(z)=1/(1+e^(-z)),其函式影象如下: 在這基礎上,若logistic迴歸只有一個樣本,則Cost函式如下圖所示: (1)在y=1的情況下,只剩下Cost的左
Machine Learning第六講[應用機器學習的建議] --(二)診斷偏差和方差
一、Diagnosing Bias vs. Variance(診斷偏差 vs. 方差) 如果一個演算法表現的不理想,多半是出現兩種情況,一種情況是偏差比較大(這種情況是欠擬合情況),另一種是方差比較大(這種情況是過擬合的情況)。下圖是欠擬合、剛好、過擬合三種情況的Size-price圖(仍然是預
Machine Learning第六講[應用機器學習的建議] --(三)建立一個垃圾郵件分類器
內容來自Andrew老師課程Machine Learning的第六章內容的Building a Spam Classifier部分。 一、Prioritizing What to Work on(優
# Apache Spark系列技術直播# 第八講 【 微軟Azure平臺利用Intel Analytics Zoo構建AI客服支援實踐 】
直播時間2019.01.10(週四) 19:00 - 20:00 主講人:黃凱——Intel大資料技術團隊軟體工程師。衛雨青——Microsoft C+AI 團隊軟體工程師。 簡介:Analytics Zoo (https://github.com/intel-analytics/analytics-zo
Scrapy爬蟲框架第七講【ITEM PIPELINE用法】
不能 doc from 參考 數據去重 17. con pic set ITEM PIPELINE用法詳解: ITEM PIPELINE作用: 清理HTML數據 驗證爬取的數據(檢查item包含某些字段) 去重(並丟棄)【預防數據去重,真正去重是在url,即請求階段
【論文解讀】【半監督學習】【Google教你水論文】A Simple Semi-Supervised Learning Framework for Object Detection
題記:最近在做LLL(Life Long Learning),接觸到了SSL(Semi-Supervised Learning)正好讀到了谷歌今年的論文,也是比較有點開創性的,淺顯易懂,對比實驗豐富,非常適合缺乏基礎科學常識和剛剛讀研不會寫論文的同學讀一讀,觸類旁通嘛。 這篇論文思路等等也非常適合剛剛開始
【無監督學習】1:K-means聚類演算法原理
前言:粗略研究完神經網路基礎——BP、CNN、RNN、LSTM網路後自己算是鬆懈了很多,好長的時間都沒有堅持再更新部落格了。“腐敗”生活了這麼久,還是要找到自己一點樂趣吧,於是想了一想,決定把《機器學習》的演算法研究過得都重新梳理一遍,於是就從無監督學習——聚類