Deep Learning 11_深度學習UFLDL教程：資料預處理（斯坦福大學深度學習教程）

阿新 • • 發佈：2019-01-12

資料預處理是深度學習中非常重要的一步！如果說原始資料的獲得，是深度學習中最重要的一步，那麼獲得原始資料之後對它的預處理更是重要的一部分。

1.資料預處理的方法：

①資料歸一化：

簡單縮放：對資料的每一個維度的值進行重新調節，使其在 $[0,1]或 [ - 1,1] 的區間內$

逐樣本均值消減：在每個樣本上減去資料的統計平均值，用於平穩的資料，對影象一般只用在灰度圖上。

特徵標準化：使資料的每一個維度具有零均值和單位方差。首先計算每一個維度上資料的均值（使用全體資料計算），之後在每一個維度上都減去該均值，然後在資料的每一維度上除以該維度上資料的標準差。最常用！

②白化：PCA白化、ZCA白化。重點是規則化項 epsilon的選擇！

如果 epsilon 值過低，白化後的資料會顯得噪聲很大；相反，如果 epsilon 值過高，白化後的資料與原始資料相比就過於模糊。

epsilon的選擇方法：

a.以圖形方式畫出資料的特徵值；b.選取大於大多數較小的、反映資料中噪聲的特徵值作為 epsilon 。

2.具體怎麼調節epsilon？沒搞懂，要是有個Exercise就好了

2.預處理時，什麼時候該進行逐樣本均值消減（即：單獨每個樣本0均值化，而不是用所有樣本每一維度0均值化）？

在資料的每個維度的統計性質是一樣的時候。對於影象來說就是，對影象的照度並不感興趣，而更多地關注其內容，這時對每個資料點移除畫素的均值是有意義的，這時可以逐樣本均值消減，它一般只適用於灰度圖。

Deep Learning 11_深度學習UFLDL教程：資料預處理（斯坦福大學深度學習教程）

資料預處理是深度學習中非常重要的一步！如果說原始資料的獲得，是深度學習中最重要的一步，那麼獲得原始資料之後對它的預處理更是重要的一部分。 1.資料預處理的方法： ①資料歸一化：簡單縮放：對資料的每一個維度的值進行重新調節，使其在 [0,1]或[ − 1,1] 的區間內逐樣本均值消減：在每個

Deep Learning 1_深度學習UFLDL教程：Sparse Autoencoder練習（斯坦福大學深度學習教程）

1前言本人寫技術部落格的目的，其實是感覺好多東西，很長一段時間不動就會忘記了，為了加深學習記憶以及方便以後可能忘記後能很快回憶起自己曾經學過的東西。首先，在網上找了一些資料，看見介紹說UFLDL很不錯，很適合從基礎開始學習，Adrew Ng大牛寫得一點都不裝B，感覺非常好

Deep Learning 4_深度學習UFLDL教程：PCA in 2D_Exercise（斯坦福大學深度學習教程）

前言本節練習的主要內容：PCA，PCA Whitening以及ZCA Whitening在2D資料上的使用，2D的資料集是45個數據點，每個資料點是2維的。要注意區別比較二維資料與二維影象的不同，特別是在程式碼中，可以看出主要二維資料的在PCA前的預處理不需要先0均值歸一化，而二維自然影象需要先

Deep Learning 19_深度學習UFLDL教程：Convolutional Neural Network_Exercise（斯坦福大學深度學習教程）

基礎知識概述 CNN是由一個或多個卷積層（其後常跟一個下采樣層）和一個或多個全連線層組成的多層神經網路。CNN的輸入是2維影象（或者其他2維輸入，如語音訊號）。它通過區域性連線和權值共享，再通過池化可得到平移不變特徵。CNN的另一個優點就是易於訓練

Deep Learning 13_深度學習UFLDL教程：Independent Component Analysis_Exercise（斯坦福大學深度學習教程）

前言實驗環境：win7， matlab2015b，16G記憶體，2T機械硬碟難點：本實驗難點在於執行時間比較長，跑一次都快一天了，並且我還要驗證各種代價函式的對錯，所以跑了很多次。實驗基礎說明： ①不同點：本節實驗中的基是標準正交的，也是線性獨立的，而Deep Learni

Deep Learning 7_深度學習UFLDL教程：Self-Taught Learning_Exercise（斯坦福大學深度學習教程）

前言理論知識：自我學習練習環境：win7， matlab2015b，16G記憶體，2T硬碟一是用29404個無標註資料unlabeledData（手寫數字資料庫MNIST Dataset中數字為5-9的資料）來訓練稀疏自動編碼器，得到其權重引數opttheta。這一步的目的是提取這

Deep Learning 2_深度學習UFLDL教程：向量化程式設計（斯坦福大學深度學習教程）

1前言本節主要是讓人用向量化程式設計代替效率比較低的for迴圈。在前一節的Sparse Autoencoder練習中已經實現了向量化程式設計，所以與前一節的區別只在於本節訓練集是用MINIST資料集，而上一節訓練集用的是從10張圖片中隨機選擇的8*8的10000張小圖塊。綜上，只需要在

Deep Learning 10_深度學習UFLDL教程：Convolution and Pooling_exercise（斯坦福大學深度學習教程）

前言實驗環境：win7， matlab2015b，16G記憶體，2T機械硬碟實驗內容：Exercise:Convolution and Pooling。從2000張64*64的RGB圖片（它是 the STL10 Dataset的一個子集）中提取特徵作為訓練資料集，訓練softmax分類器，然後從

Deep Learning 5_深度學習UFLDL教程：PCA and Whitening_Exercise（斯坦福大學深度學習教程）

close all; % clear all; %%================================================================ %% Step 0a: Load data % Here we provide the code to load n

機器學習第4篇：資料預處理（sklearn 插補缺失值）

由於各種原因，現實世界中的許多資料集都包含缺失值，通常把缺失值編碼為空白，NaN或其他佔位符。但是，此類資料集與scikit-learn估計器不相容，這是因為scikit-learn的估計器假定陣列中的所有值都是數字，並且都存在有價值的含義。如果必須使用不完整資料集，那麼處理缺失資料的基本策略是丟棄包含缺失值

python機器學習：：資料預處理（1）【轉】

轉載自：http://2hwp.com/2016/02/03/data-preprocessing/ 常見的資料預處理方法，以下通過sklearn的preprocessing模組來介紹; 1. 標準化（Standardization or Mean Removal and

機器學習第2篇：資料預處理（缺失值）

在真實的世界中，缺失資料是經常出現的，並可能對分析的結果造成影響。我們需要了解資料缺失的原因和資料缺失的型別，並從資料中識別缺失值，探索資料缺失的模式，進而處理缺失的資料。本文概述處理資料缺失的方法。一，資料缺失的原因首先我們應該知道：資料為什麼缺失？資料的缺失是我們無法避免的，可能的原因有很多種，博主總

機器學習第3篇：資料預處理（使用插補法處理缺失值）

插補法可以在一定程度上減少偏差，常用的插補法是熱卡插補、擬合插補和多重插補。擬合插補，要求變數間存在強的相關性；多重插補（MCMC法），是在高缺失率下的首選插補方法，優點是考慮了缺失值的不確定性。一，熱卡插補熱卡填充（Hot deck imputation）也叫就近補齊，對於一個包含空值的物件，熱卡填充法

Deep Learning 3_深度學習UFLDL教程：預處理之主成分分析與白化_總結（斯坦福大學深度學習教程）

1PCA ①PCA的作用：一是降維；二是可用於資料視覺化；注意：降維的原因是因為原始資料太大，希望提高訓練速度但又不希望產生很大的誤差。 ② PCA的使用場合：一是希望提高訓練速度；二是記憶體太小；三是希望資料視覺化。 ③用PCA前的預處理：(1)規整化特徵的均值大致為0；(

Deep Learning 8_深度學習UFLDL教程：Stacked Autocoders and Implement deep networks for digit classification_Exercise（斯坦福大學深度學習教程）

前言 2.實驗環境：win7， matlab2015b，16G記憶體，2T硬碟 3.實驗內容：Exercise: Implement deep networks for digit classification。利用深度網路完成MNIST手寫數字資料庫中手寫數字的識別。即：用6萬個已標註資料（即：6萬

Deep Learning 11_深度學習UFLDL教程：資料預處理（斯坦福大學深度學習教程）

Deep Learning 11_深度學習UFLDL教程：資料預處理（斯坦福大學深度學習教程）

Deep Learning 1_深度學習UFLDL教程：Sparse Autoencoder練習（斯坦福大學深度學習教程）

Deep Learning 4_深度學習UFLDL教程：PCA in 2D_Exercise（斯坦福大學深度學習教程）

Deep Learning 19_深度學習UFLDL教程：Convolutional Neural Network_Exercise（斯坦福大學深度學習教程）

Deep Learning 13_深度學習UFLDL教程：Independent Component Analysis_Exercise（斯坦福大學深度學習教程）

Deep Learning 7_深度學習UFLDL教程：Self-Taught Learning_Exercise（斯坦福大學深度學習教程）

Deep Learning 2_深度學習UFLDL教程：向量化程式設計（斯坦福大學深度學習教程）

Deep Learning 10_深度學習UFLDL教程：Convolution and Pooling_exercise（斯坦福大學深度學習教程）

Deep Learning 5_深度學習UFLDL教程：PCA and Whitening_Exercise（斯坦福大學深度學習教程）

機器學習第4篇：資料預處理（sklearn 插補缺失值）

python機器學習：：資料預處理（1）【轉】

機器學習第2篇：資料預處理（缺失值）

機器學習第3篇：資料預處理（使用插補法處理缺失值）

Deep Learning 3_深度學習UFLDL教程：預處理之主成分分析與白化_總結（斯坦福大學深度學習教程）

Deep Learning 8_深度學習UFLDL教程：Stacked Autocoders and Implement deep networks for digit classification_Exercise（斯坦福大學深度學習教程）

Deep Learning 12_深度學習UFLDL教程：Sparse Coding_exercise（斯坦福大學深度學習教程）

Deep Learning 6_深度學習UFLDL教程：Softmax Regression_Exercise（斯坦福大學深度學習教程）

Deep Learning 9_深度學習UFLDL教程：linear decoder_exercise（斯坦福大學深度學習教程）

機器學習一：資料預處理

基於深度學習的CT影象肺結節自動檢測技術一——資料預處理（歸一化，資料增強，資料標記）

Deep Learning 11_深度學習UFLDL教程：資料預處理（斯坦福大學深度學習教程）

相關推薦