Machine Learning第八講【非監督學習】--（三）主成分分析（PCA）

阿新 • • 發佈：2019-01-03

一、Principal Component Analysis Problem Formulation（主成分分析構思）

首先來看一下PCA的基本原理：

PCA會選擇投影誤差最小的一條線，由圖中可以看出，當這條線是我們所求時，投影誤差比較小，而投影誤差比較大時，一定是這條線偏離最優直線。

PCA的方向：

從圖上的分析，我們可能很疑惑PCA和線性迴歸如此地相似，那麼兩者是一回事嗎？下面的圖可以很好地給出解釋：

二、Principal Component Analysis Algorithm（主成分分析演算法）

Machine Learning第八講【非監督學習】-- （四）PCA應用

一、Reconstruction from Compressed Representation（壓縮特徵的復原）本部分主要講我們如何將已經壓縮過的特徵復原成原來的，如下圖：左邊的二維圖是未縮減維數之前的情況，下面的一維圖是利用縮減之後的情況，我們利用公式可以得到x的近似值，如右圖，

Machine Learning第八講【非監督學習】--（三）主成分分析（PCA）

一、Principal Component Analysis Problem Formulation（主成分分析構思）首先來看一下PCA的基本原理： PCA會選擇投影誤差最小的一條線，由圖中可以看出，當這條線是我們所求時，投影誤差比較小，而投影誤差比較大時，一定是這條線偏離最優直線。

Machine Learning第八講【非監督學習】-- （二）動因

一、Motivation I: Data Compression（動因I：資料壓縮）下面是2個降維處理的例項：例項1：將cm和inch的2維資料降成1維資料：例項2：降3維資料降成2維資料：二、Motivation II: Visualization（動因II：視

Machine Learning第十講【大規模機器學習】

本部分主要包括如下內容： Learning With Large Datasets (大資料集訓練模型) Stochastic Gradient Descent (隨機梯度下降演算法) &n

【機器學習】資料降維—主成分分析（PCA）

本文程式碼推薦使用Jupyter notebook跑，這樣得到的結果更為直觀。主成分分析（PCA）特徵抽取通常用於提高計算效率，降低維度災難。主成分分析（Principe component analysis，PCA）：是一種廣泛應用於不同領域的無監督

Machine Learning第八講[非監督學習] -- （一）聚類

一、Unsupervised Learning: Introduction（非監督學習簡介）之前介紹的線性迴歸、logistic迴歸以及神經網路等都是監督學習的例子，通過給出一系統樣本，通過這些樣本去訓練模型進行預測，在這些樣本中，是包含y標籤的，即實際值。在非監督學習中，我們給一系列樣

Machine Learning第九講【推薦系統】-- （二）協同過濾

一、Collaborative Filtering（協同過濾）協同過濾能夠自行學習所需要使用的特徵。來看下面的例子：在之前講的基於內容的推薦系統中，我們需要事先建立特徵並知道特徵值，這是比較困難的。假設我們某一使用者的喜好，即假如Alice、Bob喜歡romance的電影，carol

Machine Learning第九講【推薦系統】--（一）基於內容的推薦系統

符號介紹：對於每一個使用者j，假設我們已經通過學習找到引數，則使用者j對電影i的評分預測值為：。對於上面的例子：

Machine Learning第九講【異常檢測】-- （三）多元高斯分佈

一、Multivariate Gaussian Distribution（多元高斯分佈）資料中心例子：因為上面的原因，會帶來一些誤差，因此我們引入了改良版的演算法：我們不再單獨地將p(x1)，p(x2)，p(x3)訓練模型，而是將這些引數都放在一個模型裡，

Machine Learning第九講【異常檢測】-- （二）建立一個異常檢測系統

一、Developing and Evaluating an Anomaly Detection System（異常檢測系統的衡量指標）對於某一演算法，我們可以通過藉助某些數字指標來衡量演算法的好壞，仍舊以飛機引擎的例子來說：假設有10000個正常的引擎，20個有瑕疵的引擎（異常）

Machine Learning第九講【異常檢測】--（一）密度估計

一、Problem Motivation（問題引入）異常檢測一般應用在非監督學習的問題上，如圖，我們可以通過已知的資料集，訓練模型根據此模型進行異常檢測：在使用這些資料訓練的過程中，我們假設這些資料是正常的。我們可以把異常檢測應用在網站欺詐預測上，比如可以根據使用者平時

Machine Learning第七講SVM --（二）核函式

一、Kernels I（核函式I）在非線性函式中，假設函式為：將表示式改變一下，將其寫為：聯想到上次講到的計算機視覺的例子，因為需要很多畫素點，因此若f用這些高階函式表示，則計算量將會很大，那麼對於我們有沒有更好的選擇呢? 由此引入核函式的概念。對於給定

Machine Learning第七講SVM -- （三）SVM在實踐中的應用

Using SVM in Practice(SVM在實踐中的應用) 在實際應用中，並不推薦自己寫SVM的演算法，可以使用別人已經寫好的，那我們需要做什麼呢？如下圖：對於核函式的選型，我們一般會選擇線性核函式和高斯核函式。一般情況下，我們需要自己提供核函式，必

Machine Learning 第七講SVM -- (一)最大間隔分類

一、Optimization Objective（SVM優化目標）在logistic迴歸模型中，g(z)=1/(1+e^(-z)),其函式影象如下：在這基礎上，若logistic迴歸只有一個樣本，則Cost函式如下圖所示：（1）在y=1的情況下，只剩下Cost的左

Machine Learning第六講[應用機器學習的建議] --（二）診斷偏差和方差

一、Diagnosing Bias vs. Variance（診斷偏差 vs. 方差）如果一個演算法表現的不理想，多半是出現兩種情況，一種情況是偏差比較大（這種情況是欠擬合情況），另一種是方差比較大（這種情況是過擬合的情況）。下圖是欠擬合、剛好、過擬合三種情況的Size-price圖（仍然是預

Machine Learning第六講[應用機器學習的建議] --（三）建立一個垃圾郵件分類器

內容來自Andrew老師課程Machine Learning的第六章內容的Building a Spam Classifier部分。一、Prioritizing What to Work on（優

# Apache Spark系列技術直播# 第八講【微軟Azure平臺利用Intel Analytics Zoo構建AI客服支援實踐】

直播時間2019.01.10（週四） 19:00 - 20:00 主講人：黃凱——Intel大資料技術團隊軟體工程師。衛雨青——Microsoft C+AI 團隊軟體工程師。簡介：Analytics Zoo (https://github.com/intel-analytics/analytics-zo

Scrapy爬蟲框架第七講【ITEM PIPELINE用法】

不能 doc from 參考數據去重 17. con pic set ITEM PIPELINE用法詳解： ITEM PIPELINE作用：清理HTML數據驗證爬取的數據(檢查item包含某些字段) 去重(並丟棄)【預防數據去重，真正去重是在url,即請求階段

【論文解讀】【半監督學習】【Google教你水論文】A Simple Semi-Supervised Learning Framework for Object Detection

題記：最近在做LLL(Life Long Learning)，接觸到了SSL(Semi-Supervised Learning)正好讀到了谷歌今年的論文，也是比較有點開創性的，淺顯易懂，對比實驗豐富，非常適合缺乏基礎科學常識和剛剛讀研不會寫論文的同學讀一讀，觸類旁通嘛。　　這篇論文思路等等也非常適合剛剛開始

【無監督學習】1：K-means聚類演算法原理

前言：粗略研究完神經網路基礎——BP、CNN、RNN、LSTM網路後自己算是鬆懈了很多，好長的時間都沒有堅持再更新部落格了。“腐敗”生活了這麼久，還是要找到自己一點樂趣吧，於是想了一想，決定把《機器學習》的演算法研究過得都重新梳理一遍，於是就從無監督學習——聚類

Machine Learning第八講【非監督學習】--（三）主成分分析（PCA）

相關推薦