降維算法中的PCA方法

阿新 • • 發佈：2018-04-13

主成分分析數據分析

1 主成分分析
（Principal Component Analysis，PCA）

2 線性判別分析
(Linear Discriminant Analysis, LDA)
研究背景
基本知識介紹
經典方法介紹
總結討論
問題的提出

地理系統是多要素的復雜系統。在地理學研究中，多變量問題是經常會遇到的。變量太多，無疑會增加分析問題的難度與復雜性，而且在許多實際問題中，多個變量之間是具有一定的相關關系的。

因此，人們會很自然地想到，能否在相關分析的基礎上，用較少的新變量代替原來較多的舊變量，而且使這些較少的新變量盡可能多地保留原來變量所反映的信息？

降維的動機
原始觀察空間中的樣本具有極大的信息冗余
樣本的高維數引發分類器設計的“維數災難”

數據可視化、特征提取、分類與聚類等任務需求
技術分享圖片

在進行祝成分分析後後，竟然以97.4%的精度，用三個變量取代了原來的17個變量。
線性降維
通過特征的線性組合來降維
本質上是把數據投影到低維線性子空間
線性方法相對比較簡單且容易計算
代表方法
主成分分析(PCA)
線性判別分析(LDA)
多維尺度變換(MDS)
主成分分析(PCA) [Jolliffe, 1986]
降維目的：尋找能夠保持采樣數據方差的最佳投影子空間
求解方法：對樣本的散度矩陣進行特征值分解, 所求子空間為經過樣本均值, 以最大特征值所對應的特征向量為方向的子空間技術分享圖片

主成分分析(PCA) [Jolliffe, 1986]
PCA對於橢球狀分布的樣本集有很好的效果, 學習所得的主方向就是橢球的主軸方向.

PCA 是一種非監督的算法, 能找到很好地代表所有樣本的方向, 但這個方向對於分類未必是最有利的
技術分享圖片

線性判別分析(LDA) [Fukunaga, 1991]
降維目的：尋找最能把兩類樣本分開的投影直線，使投影後兩類樣本的均值之差與投影樣本的總類散度的比值最大
求解方法：經過推導把原問題轉化為關於樣本集總類內散度矩陣和總類間散度矩陣的廣義特征值問題
技術分享圖片

線性降維方法比較
主成分分析 (PCA) [Jolliffe, 1986]
線性判別分析 (LDA) [Fukunaga, 1991]
技術分享圖片

線性降維方法的不足

原始數據無法表示為特征的簡單線性組合
比如：PCA無法表達Helix曲線流形

一、主成分分析的基本原理

假定有n個地理樣本，每個樣本共有p個變量，構成一個n×p 階的地理數據矩陣

當p 較大時，在p 維空間中考察問題比較麻煩。為了克服這一困難，就需要進行降維處理，即用較少的幾個綜合指標代替原來較多的變量指標，而且使這些較少的綜合指標既能盡量多地反映原來較多變量指標所反映的信息，同時它們之間又是彼此獨立的。
定義：記x1，x2，…，xP為原變量指標，z1，z2，…，zm（m≤p）為新變量指標
技術分享圖片

系數lij的確定原則：
① zi與zj（i≠j；i，j=1，2，…，m）相互無關；
②z1是x1，x2，…，xP的一切線性組合中方差最大者，z2是與z1不相關的x1，x2，…，xP的所有線性組合中方差最大者；
……
zm是與z1，z2，……，zm－1都不相關的x1，x2，…xP，的所有線性組合中方差最大者。

則新變量指標z1，z2，…，zm分別稱為原變量指標x1，x2，…，xP的第一，第二，…，第m主成分。
從以上的分析可以看出，主成分分析的實質就是確定原來變量xj（j=1，2 ，…， p）在諸主成分zi（i=1，2，…，m）上的荷載 lij（ i=1，2，…，m； j=1，2 ，…，p）。
從數學上容易知道，從數學上可以證明，它們分別是的相關矩陣的m個較大的特征值所對應的特征向量。

 二、計算步驟

1）構建p*n階的變量矩陣

2）將p*n階的變量矩陣X的每一行（代表一個屬性字段）進行標準化

3）求出協方差矩陣C

4）求出協方差矩陣的特征值及對應的特征向量

5）將特征向量按對應特征值大小從上到下按行排列成矩陣，取前k列組成矩陣P

6）Y=XP即為降維到k維後的數據

降維算法中的PCA方法

主成分分析數據分析 1 主成分分析（Principal Component Analysis，PCA） 2 線性判別分析(Linear Discriminant Analysis, LDA)研究背景基本知識介紹經典方法介紹總結討論問題的提出地理系統是多要素的復雜系統。在地理學研究中，多變量問題是經

降維算法中的線性判別方法LDA

降維算法數據分析線性判別分析(Linear?Discriminant?Analysis,?LDA)，有時也稱Fisher線性判別(Fisher?Linear?Discriminant?,FLD)，?這種算法是Ronald?Fisher?於?1936年發明的，是模式識別的經典算法。在1996年由Be

ML: 降維算法-LDA

交叉檢驗問題 1.5 red app score 交叉 fish 錯誤判別分析（discriminant analysis）是一種分類技術。它通過一個已知類別的“訓練樣本”來建立判別準則，並通過預測變量來為未知類別的數據進行分類。判別分析的方法大體上有三類，

MATLAB自帶工具箱實現PCA降維程式碼,著重介紹實現方法

最近專案中需要進行PCA降維,環境是MATLAB,但是在網上找了很多都是介紹PCA原理的,的確介紹的很仔細,但是我是一個工科狗,只是想最快查到用程式碼實現降維的方法而已,網上的對我來說太多了,因此在此做一個總結,出於對知識的尊重,插兩篇介紹的不錯的PCA 原理文章,只是想實

字符串模式匹配KMP算法中的next數組算法及C++實現

完整牛客網 names 數據代碼 str 關於 clu .com 一、問題描述：對於兩個字符串S、T，找到T在S中第一次出現的起始位置，若T未在S中出現，則返回-1。二、輸入描述：兩個字符串S、T。三、輸出描述：字符串T在S中第一次出現的起始位置，若未出現，則

二叉樹遍歷非遞歸算法——中序遍歷

spa tdi str max logs nor 算法實現中序遍歷非遞歸　　二叉樹中序遍歷的非遞歸算法同樣可以使用棧來實現，從根結點開始，將根結點的最左結點全部壓棧，當結點p不再有最左結點時，說明結點p沒有左孩子，將該結點出棧，訪問結點p，然後對其右孩子做同樣的處理

算法中的快速排序 quicksort

wide div 對比 nal optimize rate fse incr mce 快速排序之所以比較快，是因為相比冒泡排序，每次交換是跳躍式的。每次排序的時候設置一個基準點，將小於等於基準點的數全部放到基準點的左邊，將大於等於基準點的數全部放到基準點的右邊。這樣在每次

K近鄰算法中常見的問題

k近鄰算法中常見的問題第一個問題就是k值的選取問題？怎麽快速找到k個鄰居，尤其是在特征空間維數大及訓練數據容量大時尤其必要。(1)k值的問題：當k值很小的時候，就相當於在較小的領域中訓練實例進行預測，學習的近似誤差會減小，只有與輸入實例較近的訓練實例才會對預測結果起作用（反過來想，離的越近，肯定越相似，離得越

設計一個程序，有一個虛擬存儲區和內存工作區，實現下述三種算法中的任意兩種，計算訪問命中率（命中率=1-頁面失效次數/頁地址流長度）。附加要求：能夠顯示頁面置換過程。算法包括：先進先出的算法（FIFO）、最少使用算法（LFU）、最近未使用算法（NUR）

== oat 程序表示隊列 ini ++ 等待進程第一部分。。。 #include <cstdlib>#include<conio.h> #include<stdio.h>#include<stdlib.h>#incl

降維算法中的PCA方法

降維算法中的PCA方法

降維算法中的線性判別方法LDA

ML: 降維算法-LDA

MATLAB自帶工具箱實現PCA降維程式碼,著重介紹實現方法

字符串模式匹配KMP算法中的next數組算法及C++實現

二叉樹遍歷非遞歸算法——中序遍歷

算法中的快速排序 quicksort

K近鄰算法中常見的問題

基於私鑰加密公鑰解密的RSA算法C#實現方法

斯坦福大學公開課機器學習：machine learning system design | trading off precision and recall（F score公式的提出：學習算法中如何平衡（取舍）查準率和召回率的數值）

音頻降噪算法附完整C代碼

機器學習之路：python 特征降維主成分分析 PCA

關於KMP算法中，獲取next數組算法的理解

第二節、算法中的公平——隊列

排序算法中的冒泡排序法

算法中的反轉問題

排序算法中——歸並排序和快速排序

FE之DR之線性降維：LDA&PCA演算法相關論文、主要思路、關鍵步驟、程式碼實現等相關配圖之詳細攻略

機器學習算法中的評價指標（準確率、召回率、F值、ROC、AUC等）

降維算法中的PCA方法

相關推薦