100天搞定機器學習|Day4-6 邏輯迴歸

邏輯迴歸avik-jain介紹的不是特別詳細，下面再嘮叨一遍這個演算法。

1.模型

在分類問題中，比如判斷郵件是否為垃圾郵件，判斷腫瘤是否為陽性，目標變數是離散的，只有兩種取值，通常會編碼為0和1。假設我們有一個特徵X，畫出散點圖，結果如下所示。這時候如果我們用線性迴歸去擬合一條直線：hθ(X) = θ0+θ1X，若Y≥0.5則判斷為1，否則為0。這樣我們也可以構建出一個模型去進行分類，但是會存在很多的缺點，比如穩健性差、準確率低。而邏輯迴歸對於這樣的問題會更加合適。

邏輯迴歸假設函式如下，它對θTX作了一個函式g變換，對映至0到1的範圍之內，而函式g稱為sigmoid function或者logistic function，函式影象如下圖所示。當我們輸入特徵，得到的hθ(x)其實是這個樣本屬於1這個分類的概率值。也就是說，邏輯迴歸是用來得到樣本屬於某個分類的概率。

2.評價

回想起之前線性迴歸中所用到的損失函式：

　如果在邏輯迴歸中也運用這種損失函式，得到的函式J是一個非凸函式，存在多個區域性最小值，很難進行求解，因此需要換一個cost函式。重新定義個cost函式如下：

當實際樣本屬於1類別時，如果預測概率也為1，那麼損失為0，預測正確。相反，如果預測為0，那麼損失將是無窮大。這樣構造的損失函式是合理的，並且它還是一個凸函式，十分方便求得引數θ，使得損失函式J達到最小。

3.優化

我們已經定義好了損失函式J(θ)，接下來的任務就是求出引數θ。我們的目標很明確，就是找到一組θ，使得我們的損失函式J(θ)最小。最常用的求解方法有兩種：批量梯度下降法(batch gradient descent)， 牛頓迭代方法((Newton's method)。兩種方法都是通過迭代求得的數值解，但是牛頓迭代方法的收斂速度更加快。

“ 實驗-分割線 ” 第0步：資料預覽資料集連結：https://pan.baidu.com/s/1TkUe-7-Q_jX5IT2qrXzeuA 提取碼：hrrm 該資料集包含了社交網路中使用者的資訊。這些資訊涉及使用者ID,性別,年齡以及預估薪資。一家汽車公司剛剛推出了他們新型的豪華SUV，我們嘗試預測哪些使用者會購買這種全新SUV。並且在最後一列用來表示使用者是否購買。我們將建立一種模型來預測使用者是否購買這種SUV，該模型基於兩個變數，分別是年齡和預計薪資。因此我們的特徵矩陣將是這兩列。我們嘗試尋找使用者年齡與預估薪資之間的某種相關性，以及他是否購買SUV的決定。

步驟1 | 資料預處理

匯入庫

import numpy as npimport matplotlib.pyplot as pltimport pandas as pd

匯入資料集

dataset = pd.read_csv('Social_Network_Ads.csv')
X = dataset.iloc[:, [2, 3]].values
Y = dataset.iloc[:,4].values

將資料集分成訓練集和測試集

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size = 0.25, random_state = 0)

特徵縮放

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

步驟2 | 邏輯迴歸模型

該項工作的庫將會是一個線性模型庫，之所以被稱為線性是因為邏輯迴歸是一個線性分類器，這意味著我們在二維空間中，我們兩類使用者（購買和不購買）將被一條直線分割。然後匯入邏輯迴歸類。下一步我們將建立該類的物件，它將作為我們訓練集的分類器。

將邏輯迴歸應用於訓練集

from sklearn.linear_model import LogisticRegression
classifier = LogisticRegression()
classifier.fit(X_train, y_train)

步驟3 | 預測

預測測試集結果

y_pred = classifier.predict(X_test)

步驟4 | 評估預測

我們預測了測試集。現在我們將評估邏輯迴歸模型是否正確的學習和理解。因此這個混淆矩陣將包含我們模型的正確和錯誤的預測。

生成混淆矩陣

from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)

視覺化

from matplotlib.colors import ListedColormap
X_set,y_set=X_train,y_train
X1,X2=np. meshgrid(np. arange(start=X_set[:,0].min()-1, stop=X_set[:, 0].max()+1, step=0.01),
                   np. arange(start=X_set[:,1].min()-1, stop=X_set[:,1].max()+1, step=0.01))
plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(),X2.ravel()]).T).reshape(X1.shape),             alpha = 0.75, cmap = ListedColormap(('red', 'green')))
plt.xlim(X1.min(),X1.max())
plt.ylim(X2.min(),X2.max())for i,j in enumerate(np. unique(y_set)):
    plt.scatter(X_set[y_set==j,0],X_set[y_set==j,1],                c = ListedColormap(('red', 'green'))(i), label=j)

plt. title(' LOGISTIC(Training set)')
plt. xlabel(' Age')
plt. ylabel(' Estimated Salary')
plt. legend()
plt. show()

X_set,y_set=X_test,y_test
X1,X2=np. meshgrid(np. arange(start=X_set[:,0].min()-1, stop=X_set[:, 0].max()+1, step=0.01),
                   np. arange(start=X_set[:,1].min()-1, stop=X_set[:,1].max()+1, step=0.01))

plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(),X2.ravel()]).T).reshape(X1.shape),             alpha = 0.75, cmap = ListedColormap(('red', 'green')))
plt.xlim(X1.min(),X1.max())
plt.ylim(X2.min(),X2.max())for i,j in enumerate(np. unique(y_set)):
    plt.scatter(X_set[y_set==j,0],X_set[y_set==j,1],                c = ListedColormap(('red', 'green'))(i), label=j)

plt. title(' LOGISTIC(Test set)')
plt. xlabel(' Age')
plt. ylabel(' Estimated Salary')
plt. legend()
plt. show()

>首發於微信公眾號：機器學習與統計學 歡迎掃碼關注，

</div>
<div class=

100天搞定機器學習|Day4-6 邏輯迴歸

100天搞定機器學習|Day4-6 邏輯迴歸

100天搞定機器學習|Day3多元線性迴歸

100天搞定機器學習|Day15 樸素貝葉斯

100天搞定機器學習|Day17-18 神奇的邏輯迴歸

100天搞定機器學習|Day23-25 決策樹及Python實現

100天搞定機器學習|Day 30-32 微積分的本質

100天搞定機器學習|Day33-34 隨機森林

100天搞定機器學習|Day35 深度學習之神經網路的結構

100天搞定機器學習|Day36用有趣的方式解釋梯度下降演算法

100天搞定機器學習|day37 無公式理解反向傳播演算法之精髓

100天搞定機器學習|day38 反向傳播演算法推導

100天搞定機器學習|day39 Tensorflow Keras手寫數字識別

100天搞定機器學習|day40-42 Tensorflow Keras識別貓狗

100天搞定機器學習|day43 幾張GIF理解K-均值聚類原理

100天搞定機器學習|Day56 隨機森林工作原理及調參實戰（信用卡欺詐預測）

機器學習筆記(6)-邏輯迴歸與最大熵模型

從0到1 | 0基礎/轉行如何用3個月搞定機器學習

一天搞懂機器學習PPT筆記-1

機器學習筆記(6) 線性迴歸

數學推導+純Python實現機器學習演算法：邏輯迴歸

100天搞定機器學習|Day4-6 邏輯迴歸

相關推薦