SMOTE演算法及其python實現

阿新 • • 發佈：2019-01-21

SMOTE（Synthetic Minority Oversampling Technique），合成少數類過取樣技術．它是基於隨機過取樣演算法的一種改進方案，由於隨機過取樣採取簡單複製樣本的策略來增加少數類樣本，這樣容易產生模型過擬合的問題，即使得模型學習到的資訊過於特別(Specific)而不夠泛化(General)，SMOTE演算法的基本思想是對少數類樣本進行分析並根據少數類樣本人工合成新樣本新增到資料集中，具體如下圖所示，演算法流程如下。

(1)對於少數類中每一個樣本x，以歐氏距離為標準計算它到少數類樣本集中所有樣本的距離，得到其k近鄰。
(2)根據樣本不平衡比例設定一個取樣比例以確定取樣倍率N，對於每一個少數類樣本x，從其k近鄰中隨機選擇若干個樣本，假設選擇的近鄰為xn。
(3)對於每一個隨機選出的近鄰xn，分別與原樣本按照如下的公式構建新的樣本。

這裡寫圖片描述

smote演算法的虛擬碼如下：

這裡寫圖片描述

python程式碼實現如下：

import random
from sklearn.neighbors import NearestNeighbors
import numpy as np
class Smote:
    def __init__(self,samples,N=10,k=5):
        self.n_samples,self.n_attrs=samples.shape
        self.N=N
        self.k=k
        self.samples=samples
        self.newindex=0 

       # self.synthetic=np.zeros((self.n_samples*N,self.n_attrs))

    def over_sampling(self):
        N=int(self.N/100)
        self.synthetic = np.zeros((self.n_samples * N, self.n_attrs))
        neighbors=NearestNeighbors(n_neighbors=self.k).fit(self.samples)
        print 'neighbors',neighbors
        for 
 i in range(len(self.samples)):
            nnarray=neighbors.kneighbors(self.samples[i].reshape(1,-1),return_distance=False)[0]
            #print nnarray
            self._populate(N,i,nnarray)
        return self.synthetic


    # for each minority class samples,choose N of the k nearest neighbors and generate N synthetic samples.
    def _populate(self,N,i,nnarray):
        for j in range(N):
            nn=random.randint(0,self.k-1)
            dif=self.samples[nnarray[nn]]-self.samples[i]
            gap=random.random()
            self.synthetic[self.newindex]=self.samples[i]+gap*dif
            self.newindex+=1
a=np.array([[1,2,3],[4,5,6],[2,3,1],[2,1,2],[2,3,4],[2,3,4]])
s=Smote(a,N=100)
print s.over_sampling()

SMOTE演算法的缺陷

該演算法主要存在兩方面的問題:一是在近鄰選擇時,存在一定的盲目性。從上面的演算法流程可以看出,在演算法執行過程中,需要確定K值,即選擇多少個近鄰樣本,這需要使用者自行解決。從K值的定義可以看出,K值的下限是M值(M值為從K個近鄰中隨機挑選出的近鄰樣本的個數,且有M< K),M的大小可以根據負類樣本數量、正類樣本數量和資料集最後需要達到的平衡率決定。但K值的上限沒有辦法確定,只能根據具體的資料集去反覆測試。因此如何確定K值,才能使演算法達到最優這是未知的。
另外,該演算法無法克服非平衡資料集的資料分佈問題,容易產生分佈邊緣化問題。由於負類樣本的分佈決定了其可選擇的近鄰,如果一個負類樣本處在負類樣本集的分佈邊緣,則由此負類樣本和相鄰樣本產生的“人造”樣本也會處在這個邊緣,且會越來越邊緣化,從而模糊了正類樣本和負類樣本的邊界,而且使邊界變得越來越模糊。這種邊界模糊性,雖然使資料集的平衡性得到了改善,但加大了分類演算法進行分類的難度．

針對SMOTE演算法的進一步改進

針對SMOTE演算法存在的邊緣化和盲目性等問題,很多人紛紛提出了新的改進辦法,在一定程度上改進了演算法的效能,但還存在許多需要解決的問題。

Han等人Borderline-SMOTE: A New Over-Sampling Method in Imbalanced Data Sets Learning 在SMOTE演算法基礎上進行了改進,提出了Borderhne.SMOTE演算法,解決了生成樣本重疊(Overlapping)的問題該演算法在執行的過程中,查詢一個適當的區域,該區域可以較好地反應資料集的性質,然後在該區域內進行插值,以使新增加的“人造”樣本更有效。這個適當的區域一般由經驗給定,因此演算法在執行的過程中有一定的侷限性。

我找到的smote相關論文請轉到我的另外一篇部落格。

SMOTE演算法及其python實現

SMOTE演算法的缺陷

針對SMOTE演算法的進一步改進

SMOTE演算法及其python實現

經典查詢演算法及其Python實現

資料結構與演算法：常見排序演算法及其python實現

頻繁項集挖掘Apriori演算法及其Python實現

機器學習之深入理解神經網路理論基礎、BP演算法及其Python實現

高斯判別分析演算法及其python實現

K近鄰（KNN）演算法、KD樹及其python實現

深入學習主成分分析（PCA）演算法原理及其Python實現

KNN及其改進演算法的python實現

常用距離演算法和相關係數及其Python實現

Fuzzy C Means 算法及其 Python 實現——寫得很清楚，見原文

（轉）梯度下降法及其Python實現

Kmeans聚類算法及其 Python實現

常用algorithm及其Python實現

Kmeans 聚類及其python實現

密碼傳紙條演算法訓練 -- python 實現

MDS演算法及其matlab實現

（轉）二十三種設計模式及其python實現

naive bayes 演算法的Python實現與理解

usersig 生成演算法純 python 實現

SMOTE演算法及其python實現

SMOTE演算法的缺陷

針對SMOTE演算法的進一步改進

相關推薦