機器學習實踐（四）—sklearn之特徵預處理

阿新 • • 發佈：2018-11-25

一、特徵預處理概述

什麼是特徵預處理

# scikit-learn的解釋
provides several common utility functions and transformer classes to change raw feature vectors into a representation that is more suitable for the downstream estimators.

翻譯過來：通過一些轉換函式將特徵資料轉換成更加適合演算法模型的特徵資料過程

數值型資料的無量綱化：
- 歸一化
- 標準化
為什麼我們要進行歸一化/標準化？

百面機器學習-為什麼需要對數值型別的特徵做歸一化

如果存在特徵的數值差別比較大的特徵，那麼分析出來的結果顯然就會傾向於數值差別比較大的特徵。

如果存在特徵的方差比較大的特徵，那麼分析出來的結果顯然就會傾向於方差比較大的特徵。

我們需要用到一些方法進行無量綱化，使不同規格的資料轉換到同一規格。

二、歸一化

定義

通過對原始資料進行變換把資料對映到 [0,1] 之間
公式

$x$

′ = x o l

d − m i n m a x − m i n x^{'} = \frac{x^{old}-min}{max-min} $x^{^{'}} = \frac{x ^{o l d} - m i n}{m a x - m i n}$

$x^{new} = x^{'} * (mx - mi) + mi$

max、min 分別為該特徵資料中的最大值、最小值

mx、mi 分別為設定的歸一化區間的最大值、最小值
sklearn API：

sklearn.preprocessing.MinMaxScaler (feature_range=(0,1))
- MinMaxScalar.fit_transform(X)
  - X：numpy array 格式的資料
  - return：轉換後的形狀相同的array
示例程式碼：

import pandas as pd
from sklearn.preprocessing import MinMaxScaler

data = pd.read_csv('dating.txt')

# 1、建立傳喚器，預設 feature_range=(0,1)
transfer = MinMaxScaler(feature_range=(2,3))

# 2、呼叫fit_transform
transfer.fit_transform(data[['milage','Liters','Consumtime','target']])

歸一化缺點：
- 最大值最小值是變化的，歸一化容易受極值影響，穩健性較差。
- 最大值與最小值容易受異常點影響，所以這種方法魯棒性較差，只適合傳統精確小資料場景。

三、標準化

定義

通過對原始資料進行變換把資料變換到均值為0,標準差為1範圍內
公式

$x^{new} = \frac{x - mean}{σ}$

作用於每一列，mean為平均值，σ為標準差

sklearn API：

sklearn.preprocessing.StandardScaler( )
- 處理之後每列來說所有資料都聚集在均值0附近標準差差為1
- StandardScaler.fit_transform(X)
  - X:numpy array格式的資料
  - return：轉換後的形狀相同的array
示例程式碼：

import pandas as pd
from sklearn.preprocessing import StandardScaler

data = pd.read_csv('dating.txt')

# 1、建立轉換器
transfer = StandardScaler()

# 2、呼叫fit_transform
new_data = transfer.fit_transform(data[data.columns[:3]])

# 3、列印標準化後的結果
print(new_data)

歸一化的缺點在標準化下不存在
- 對於標準化來說，如果出現異常點，由於具有一定資料量，少量的異常點對於平均值的影響並不大，從而方差改變較小。
- 在已有樣本足夠多的情況下比較穩定，適合現代嘈雜大資料場景。

機器學習實踐（四）—sklearn之特徵預處理

一、特徵預處理概述什麼是特徵預處理 # scikit-learn的解釋 provides several common utility functions and transformer classes to change raw feature vectors into

機器學習實踐（三）—sklearn之特徵工程

一、特徵工程介紹 1. 為什麼需要特徵工程 Andrew Ng ： “Coming up with features is difficult, time-consuming, requires expert knowledge. “Applied machine learnin

機器學習實踐（五）—sklearn之特徵降維

一、特徵降維概述為什麼要對特徵進行降維處理如果特徵本身存在問題或者特徵之間相關性較強，對於演算法學習預測會影響較大什麼是降維降維是指在某些限定條件下，降低隨機變數(特徵)個數，得到一組“不

機器學習實踐（七）—sklearn之K-近鄰演算法

一、K-近鄰演算法(KNN)原理 K Nearest Neighbor演算法又叫KNN演算法，這個演算法是機器學習裡面一個比較經典的演算法，總體來說KNN演算法是相對比較容易理解的演算法定義如果一個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的

機器學習實踐（六）—sklearn之轉換器和估計器

一、sklearn轉換器想一下之前做的特徵工程的步驟？ 1 例項化 (例項化的是一個轉換器類(Transformer)) 2 呼叫fit_transform(對於文件建立分類詞頻矩陣，不能同時呼叫) 我們

機器學習實踐（二）—sklearn之資料集

一、可用資料集 Kaggle網址：https://www.kaggle.com/datasets UCI資料集網址： http://archive.ics.uci.edu/ml/ scikit-learn網址：http://scikit-learn.org/sta

機器學習實踐（一）—sklearn之概述

1956年，人工智慧元年。人類能夠創造出人類還未知的東西。這未知的東西人類能夠保證它不誤入歧途嗎。一、機器學習和人工智慧，深度學習的關係機器學習是人工智慧的一個實現途徑深度學習是機器學習的一個方法發展而來二、機器學習，深度

機器學習實踐（九）—sklearn之樸素貝葉斯演算法

一、樸素貝葉斯演算法什麼是樸素貝葉斯分類方法屬於哪個類別概率大，就判斷屬於哪個類別概率基礎概率定義為一件事情發生的可能性 P(X) : 取值在[0, 1] 聯合概率、條件概率與相互獨立

機器學習實踐（八）—sklearn之交叉驗證與引數調優

一、交叉驗證與引數調優交叉驗證(cross validation) 交叉驗證：將拿到的訓練資料，分為訓練集、驗證集和測試集。訓練集：訓練集+驗證集測試集：測試集

機器學習入門（四）之----線性迴歸（正規方程）

再談最小平方問題有了矩陣求導工具後，我們可以尋找最小化損失函式的引數值的閉式解（closed-form solution）。首先我們先把這個損失函式表達成向量的形式。把每個訓練樣本放在矩陣一行，可以得到一個$m \times n$ 設計矩陣$X$ （design matrix），即 \[ X=\

機器學習筆記（四）機器學習可行性分析

資料表示 image 隨機訓練樣本 -s mage 例如 lin 從大量數據中抽取出一些樣本，例如，從大量彈珠中隨機抽取出一些樣本，總的樣本中橘色彈珠的比例為，抽取出的樣本中橘色彈珠的比例為，這兩個比例的值相差很大的幾率很小，數學公式表示為：用抽取到的樣本作為訓練

python機器學習實戰（四）

機器學習實戰（四）邏輯迴歸LR（Logistic Regression）

目錄 0. 前言 1. Sigmoid 函式 2. 梯度上升與梯度下降 3. 梯度下降法（Gradient descent） 4. 梯度上升法（Gradient ascent） 5. 梯度下降/上升法的數學推導

機器學習筆記（四）Logistic迴歸實現及正則化

一、Logistic迴歸實現（一）特徵值較少的情況 1. 實驗資料吳恩達《機器學習》第二課時作業提供資料1。判斷一個學生能否被一個大學錄取，給出的資料集為學生兩門課的成績和是否被錄取，通過這些資料來預測一個學生能否被錄取。 2. 分類結果評估橫縱軸（特徵）為學生兩門課成績，可以在圖

深度學習實踐（一）—tensorflow之概述

內容預覽 1.1 深度學習與機器學習的區別 1.1.1 特徵提取方面 1.1.2 資料量和計算效能要求 1.1.3 演算法代表 1.2 深度學習的應用場景 1.2.1 影象識別 1.2

機器學習筆記（四）Scikit-learn CountVectorizer 與 TfidfVectorizer

Scikit-learn CountVectorizer 與 TfidfVectorizer 在文字分類問題中，我們通常進行特徵提取，這時，我們需要利用到要介紹的工具，或者其他工具。文字的特徵提取特別重要，體現這個系統做的好壞，分類的準確性，文字的特徵需要自己

機器學習入門（四）迴歸演算法

--------韋訪 20181010 1、概述現在開始學習演算法了，從線性迴歸和邏輯迴歸開始。 2、線性迴歸概念關於迴歸和分類的概念，我們在TensorFlow入門筆記第八講有說過，這裡直接複製過來，分類問題：分類問題希望解決的是將不同的樣本分到事先定義好的

Spring 學習筆記（四）IOC之註解方式

用註解向IOC容器增加javaBean配置，還有一些注入的註解第一步：添加註解的jar包 spring-aop-4.3.3.RELEASE.jar 第二步：applicationContext.xml檔案中開啟註解注意beans標籤內增加了context的名稱空間和約束 &l

Docker學習實踐（四）

Docker 映象可以將 Docker 映象理解為包含應用程式以及其相關依賴的一個基礎檔案系統，在 Docker 容器啟動的過程中，它以只讀的方式被用於建立容器的執行環境。從另一個角度看，Docker 映象其實是由基於 UnionFS 檔案系統的一組映象層依次掛載而得，

機器學習筆記（四）——決策樹如何長成森林？

決策樹是一種基本的分類與迴歸方法，在整合方法中經常作為基礎分類器，比如說隨機森林演算法。決策樹模型具有可讀性和分類速度快兩大特點，但是也容易造成過擬合的問題。一般來說，決策樹演算法通常包括3個步驟：特徵選擇、決策樹的生成和決策樹的修剪！一、特徵選擇當我們使用決策樹演算法對資料進

機器學習實踐（四）—sklearn之特徵預處理

一、特徵預處理概述

什麼是特徵預處理

數值型資料的無量綱化：

為什麼我們要進行歸一化/標準化？

二、歸一化

定義

公式

sklearn API：

示例程式碼：

歸一化缺點：

三、標準化

定義

公式

sklearn API：

示例程式碼：

歸一化的缺點在標準化下不存在

相關推薦