python資料預處理：樣本分佈不均（過取樣和欠取樣）

阿新 • • 發佈：2018-11-26

何為樣本分佈不均：

樣本分佈不均衡就是指樣本差異非常大，例如共1000條資料樣本的資料集中，其中佔有10條樣本分類，其特徵無論如何你和也無法實現完整特徵值的覆蓋，此時屬於嚴重的樣本分佈不均衡。

為何要解決樣本分佈不均：

樣本分部不均衡的資料集也是很常見的：比如惡意刷單、黃牛訂單、信用卡欺詐、電力竊電、裝置故障、大企業客戶流失等。
樣本不均衡將導致樣本量少的分類所包含的特徵過少，很難從中提取規律，即使得到分類模型，也容易產生過度依賴於有限的數量樣本而導致過擬合問題，當模型應用到新的資料上時，模型的準確性和健壯性將會很差。

樣本分佈不均的解決方法：

過取樣通過增加分類中樣本較少的類別的取樣數量來實現平衡，最直接的方法是簡單複製小樣本資料，缺點是如果特徵少，會導致過擬合的問題。經過改進的過抽樣方法通過在少數類中加入隨機噪聲、干擾資料或通過一定規則產生新的合成樣本。

欠取樣通過減少分類中多數類樣本的數量來實現樣本均衡，最直接的方法是隨機去掉一些多數類樣本來減小多數類的規模，缺點是會丟失多數類中的一些重要資訊。
設定權重對不同樣本數量的類別賦予不同的權重（通常會設定為與樣本量成反比）
整合方法每次生成訓練集時使用所有分類中的小樣本量，同時從分類中的大樣本量中隨機抽取資料來與小樣本量合併構成訓練集，這樣反覆多次會得到很多訓練集和訓練模型。最後在應用時，使用組合方法（例如投票、加權投票等）產生分類預測結果。這種方法類似於隨機森林。缺點是，比較吃計算資源，費時。

python程式碼：

# 生成不平衡分類資料集
from collections import 
 Counter
from sklearn.datasets import make_classification
X, y = make_classification(n_samples=3000, n_features=2, n_informative=2,
                           n_redundant=0, n_repeated=0, n_classes=3,
                           n_clusters_per_class=1,
                           weights=[0.1, 0.05, 0.85],
                           class_sep= 
0.8, random_state=2018)
Counter(y)
# Counter({2: 2532, 1: 163, 0: 305})

# 使用RandomOverSampler從少數類的樣本中進行隨機取樣來增加新的樣本使各個分類均衡
from imblearn.over_sampling import RandomOverSampler
 
ros = RandomOverSampler(random_state=0)
X_resampled, y_resampled = ros.fit_sample(X, y)
sorted(Counter(y_resampled).items())
# [(0, 2532), (1, 2532), (2, 2532)]

# SMOTE: 對於少數類樣本a, 隨機選擇一個最近鄰的樣本b, 然後從a與b的連線上隨機選取一個點c作為新的少數類樣本
from imblearn.over_sampling import SMOTE
 
X_resampled_smote, y_resampled_smote = SMOTE().fit_sample(X, y)
 
sorted(Counter(y_resampled_smote).items())
# [(0, 2532), (1, 2532), (2, 2532)]

# ADASYN: 關注的是在那些基於K最近鄰分類器被錯誤分類的原始樣本附近生成新的少數類樣本
from imblearn.over_sampling import ADASYN

X_resampled_adasyn, y_resampled_adasyn = ADASYN().fit_sample(X, y)
 
sorted(Counter(y_resampled_adasyn).items())
# [(0, 2522), (1, 2520), (2, 2532)]

# RandomUnderSampler函式是一種快速並十分簡單的方式來平衡各個類別的資料: 隨機選取資料的子集.
from imblearn.under_sampling import RandomUnderSampler
rus = RandomUnderSampler(random_state=0)
X_resampled, y_resampled = rus.fit_sample(X, y)
 
sorted(Counter(y_resampled).items())
# [(0, 163), (1, 163), (2, 163)]

# 在之前的SMOTE方法中, 當由邊界的樣本與其他樣本進行過取樣差值時, 很容易生成一些噪音資料. 因此, 在過取樣之後需要對樣本進行清洗. 
# 這樣TomekLink 與 EditedNearestNeighbours方法就能實現上述的要求.
from imblearn.combine import SMOTEENN
smote_enn = SMOTEENN(random_state=0)
X_resampled, y_resampled = smote_enn.fit_sample(X, y)
 
sorted(Counter(y_resampled).items())
# [(0, 2111), (1, 2099), (2, 1893)]

from imblearn.combine import SMOTETomek
smote_tomek = SMOTETomek(random_state=0)
X_resampled, y_resampled = smote_tomek.fit_sample(X, y)
 
sorted(Counter(y_resampled).items())
# [(0, 2412), (1, 2414), (2, 2396)]

# 使用SVM的權重調節處理不均衡樣本 權重為balanced 意味著權重為各分類資料量的反比
from sklearn.svm import SVC  
svm_model = SVC(class_weight='balanced')
svm_model.fit(X, y)

# # EasyEnsemble 通過對原始的資料集進行隨機下采樣實現對資料集進行整合.
# EasyEnsemble 有兩個很重要的引數: (i) n_subsets 控制的是子集的個數 and (ii) replacement 決定是有放回還是無放回的隨機取樣.
from imblearn.ensemble import EasyEnsemble
ee = EasyEnsemble(random_state=0, n_subsets=10)
X_resampled, y_resampled = ee.fit_sample(X, y)
sorted(Counter(y_resampled[0]).items())
# [(0, 163), (1, 163), (2, 163)]

# BalanceCascade(級聯平衡)的方法通過使用分類器(estimator引數)來確保那些被錯分類的樣本在下一次進行子集選取的時候也能被取樣到. 同樣, n_max_subset 引數控制子集的個數, 以及可以通過設定bootstrap=True來使用bootstraping(自助法).
from imblearn.ensemble import BalanceCascade
from sklearn.linear_model import LogisticRegression
bc = BalanceCascade(random_state=0,
                    estimator=LogisticRegression(random_state=0),
                    n_max_subset=4)
X_resampled, y_resampled = bc.fit_sample(X, y)
 
sorted(Counter(y_resampled[0]).items())
# [(0, 163), (1, 163), (2, 163)]

# BalancedBaggingClassifier 允許在訓練每個基學習器之前對每個子集進行重抽樣. 簡而言之, 該方法結合了EasyEnsemble取樣器與分類器(如BaggingClassifier)的結果.
from sklearn.tree import DecisionTreeClassifier
from imblearn.ensemble import BalancedBaggingClassifier
bbc = BalancedBaggingClassifier(base_estimator=DecisionTreeClassifier(),
                                ratio='auto',
                                replacement=False,
                                random_state=0)
bbc.fit(X, y)

python資料預處理：樣本分佈不均（過取樣和欠取樣）

何為樣本分佈不均：樣本分佈不均衡就是指樣本差異非常大，例如共1000條資料樣本的資料集中，其中佔有10條樣本分類，其特徵無論如何你和也無法實現完整特徵值的覆蓋，此時屬於嚴重的樣本分佈不均衡。為何要解決樣本分佈不均：樣本分部不均衡的資料集也是很常見的：比如惡意刷單、黃牛訂

python資料預處理：資料標準化

何為標準化：在資料分析之前，我們通常需要先將資料標準化（normalization），利用標準化後的資料進行資料分析。資料標準化也就是統計資料的指數化。資料標準化處理主要包括資料同趨化處理和無量綱化處理兩個方面。資料同趨化處理主要解決不同性質資料問題，對不同性質指標直接加總不能正確

python資料預處理：資料相關性

何為相關性：相關性分析是指對具備相關性關係的變數進行分析，從而衡量變數間的相關程度或密切程度。相關性可以應用到所有資料的分析過程中，任何事物之間都是存在一定的聯絡。相關性用R（相關係數）表示，R的取值範圍是[-1, 1] 相關和因果：相關並不是因果，例如商品銷售活動時，通

python資料預處理：資料共線性處理

何為共線性：共線性問題指的是輸入的自變數之間存在較高的線性相關度。共線性問題會導致迴歸模型的穩定性和準確性大大降低，另外，過多無關的維度計算也很浪費時間共線性產生原因：變量出現共線性的原因：資料樣本不夠，導致共線性存在偶然性，這其實反映了缺少資料對於資料建

python資料預處理：資料抽樣

何為資料抽樣：抽樣是資料處理的一種基本方法，常常伴隨著計算資源不足、獲取全部資料困難、時效性要求等情況使用。抽樣方法：一般有四種方法：隨機抽樣直接從整體資料中等概率抽取n個樣本。這種方法優勢是，簡單、好操作、適用於分佈均勻的場景；缺點是總體大時無法一一編

python資料預處理：資料降維

資料為何要降維資料降維可以降低模型的計算量並減少模型執行時間、降低噪音變數資訊對於模型結果的影響、便於通過視覺化方式展示歸約後的維度資訊並減少資料儲存空間。因此，大多數情況下，當我們面臨高維資料時，都需要對資料做降維處理。資料降維有兩種方式：特徵選擇，維度轉換特徵選擇

python資料預處理：字元變數獨熱編碼(one-hot encoding)

許多的資料取樣中會有很多以以字串形式出現的資料，這樣的資料沒有辦法直接跟其他數值變數合併成向量，這些值一般是分類資料或是順序資料。分類資料：分類資料指某些資料類別的只能歸於某一類非數值型資料，例如男、女。分類資料中的值沒有明顯高低好壞之分，只是由來區分兩個或多個具有相同或相

python資料預處理：使用pandas 進行資料清洗

問題：介紹資料清洗方法。。解答：所謂資料清洗主要處理的是資料中的缺失值、異常值和重複值：缺失值處理資料缺失值指由於各種原因導致資料中存在的空缺值：資料庫中的null，python返回物件none，pandas或numpy中的nan；另空字串是有實體的不算是缺

python資料預處理：資料離散化

何為離散化：一些資料探勘演算法中，要求資料是分類屬性形式。因此常常需要將連續屬性的資料通過斷點進行劃分最後歸屬到不同的分類，即離散化。為什麼要離散化：調高計算效率分類模型計算需要給予距離計算模型（k均值、協同過濾）中降低異常資料對模型的影響

資料預處理：樣本非平衡處理

轉載：https://zhuanlan.zhihu.com/p/37311047 非平衡資料會影響最後的評判效果，嚴重的會帶來過擬合的效果，即模型總是把樣本劃分到樣本量較多的那一種。為了讓模型的評判更準確，我們需要對非平衡資料

Python資料預處理：機器學習、人工智慧通用技術（1）

Python資料預處理：機器學習、人工智慧通用技術白寧超 2018年12月24日17:28:26 摘要：大資料技術與我們日常生活越來越緊密，要做大資料，首要解決資料問題。原始資料存在大量不完整、不一致、有異常的資料，嚴重影響到資料建模的執行效率，甚至可能導致模型

資料預處理：獨熱編碼（One-Hot Encoding）和 LabelEncoder標籤編碼

一、問題由來在很多機器學習任務中，特徵並不總是連續值，而有可能是分類值。離散特徵的編碼分為兩種情況：　　1、離散特徵的取值之間沒有大小的意義，比如color：[red,blue],那麼就使用one-hot編碼　　2、離散特徵的取值有大小的意義，比如size:[

【Python資料預處理】歸一化（按列減均值，除方差），標準化（按列縮放到指定範圍），正則化（範數）

一、標準化（Z-Score），或者去除均值和方差縮放公式為：(X-mean)/std 計算時對每個屬性/每列分別進行。將資料按期屬性（按列進行）減去其均值，並處以其方差。得到的結果是，對於每個屬性/每列來說所有資料都聚集在0附近，方差為1。實現時，有兩種不同

資料預處理：讀取檔案資料，並存為python陣列

檔案的簡單讀取 # 定義一個將檔案中的資料轉化為陣列的類 import numpy as np class DataUtil: # =============================================================================

京東豬臉識別比賽資料預處理：用Python將視訊每一幀提取儲存為圖片

最近參加京東的豬臉識別比賽，訓練集是30個視訊，需要將視訊的每一幀提取出來儲存為圖片，存入對應的資料夾（分類標籤）。本例是直接呼叫了cv2 模組中的 VideoCapture。一次執行，大概10分鐘，就能得到預處理後的分類圖片了，具體程式碼如下。

3行程式碼，Python資料預處理提速6倍！

來源：towardsdatascience 作者：George Seif 編輯：肖琴讓CPU核心物盡其用！本文介紹了僅需3行程式碼，將Python資料處理速度提升2~6倍的簡單方法。 Python是所有機器學習的首選程式語言。它易於使用，並擁有許多很棒的庫，可以輕鬆地處

資料預處理：One-Hot Encoding

機器學習中，在對資料進行訓練之前，都會對資料進行預處理，也就是特徵提取，個人認為特徵提取是訓練模型中非常非常重要的一步！在迴歸，分類，聚類等機器學習演算法中，特徵之間距離的計算或相似度的計算是非常重要的，而我們常用的距離或相似度的計算都是在歐式空間的相似度計算，計算餘弦相似性，基於的就是歐

3-6 用 Pandas 進行資料預處理：資料清洗與視覺化（版本：py3）

主要內容：格式轉換缺失資料異常資料資料標準化操作格式轉換如Python記錄時間的方式，不能夠直接實現減運算，就需要進行轉換 pandas.to_datetime 缺失資料忽略缺失資料直接標記利用平均值、最常出現值進行填充異常資料處

Python資料預處理之---統計學的t檢驗，卡方檢驗以及均值，中位數等

Python資料預處理過程：利用統計學對資料進行檢驗，對連續屬性檢驗正態分佈，針對正態分佈屬性繼續使用t檢驗檢驗方差齊次性，針對非正態分佈使用Mann-Whitney檢驗。針對分類變數進行卡方檢驗（涉及三種卡方的檢驗：Pearson卡方，校準卡方，精準卡方）等。

python資料預處理和特性選擇後列的對映

我們在用python進行機器學習建模時，首先需要對資料進行預處理然後進行特徵工程，在這些過程中，資料的格式可能會發生變化，前幾天我遇到過的問題就是：　　　　對資料進行標準化、歸一化、方差過濾的時候資料都從DataFrame格式變為了array格式。這樣資料的列名就會消失，且進行特徵選擇之後列的數量也會

python資料預處理 ：樣本分佈不均（過取樣和欠取樣）

何為樣本分佈不均：

為何要解決樣本分佈不均：

樣本分佈不均的解決方法：

python程式碼：

相關推薦

python資料預處理：樣本分佈不均（過取樣和欠取樣）