機器學習演算法：迴歸分析與工程應用

阿新 • • 發佈：2018-11-27

一、線性迴歸

1.1 定義與定義引入

（一）什麼是線性迴歸呢？

有監督學習
輸出/預測的結果yi為連續值變數
需要學習對映f：x->y
假定輸入x和輸出y之間有線性相關關係

（二）舉一個例子（單一變數）：

（三）多變數的情況

1.2 損失函式

（一）我們要找到最好的權重/引數

（二）怎樣去衡量“最好”？

我們把x到y的對映函式f記做θ的函式

定義損失函式為：

（三）最小化損失函式

下圖中的右圖為隨著θ1變化，損失值的變化，呈現拋物線形狀：

（四）在θ0和θ1存在的情況下會形成拋物面，最主要的是找到最低點

1.3 梯度下降

（一）逐步最小化損失函式的過程

（二）如同下山，找準方向（斜率），每次邁進一小步，直至山底

α是學習率，由於偏導求解後區分正負號，所以會自動實現正負加減。

在應用中，一般可以設定一個閾值，以此為限進行求解。

（三）對於有兩個引數θ0和θ1存在的情況下會形成拋物面：

（四）假如現在有n個特徵/變數x（x1，x2，x3......）

（五）學習率α

學習率太小——收斂會很慢，會影響學習效率。

學習率太大——“由這山入那山”，可能會形成左右振盪的情況，可能會無法到達最低點。

一般情況下會將α定為一個相對比較小的值，但不能太小，0.01,0.005比較常見。

1.4 過/欠擬合與正則化

（一）迴歸與欠/過擬合

如果我們有特別多的特徵 , 我們的假設函式曲線可以對原始資料擬合得非常好( ( ), 但喪失了一般性，從而導致對新給的待預測樣本，預測效果差。

最左邊的圖中，使用直線，無論如何調整都無法進行相對正確和完整的擬合，所以這個模型並不好；中間的圖是一種拋物線的形狀，這個時候我們發現，這條曲線比較光滑，雖然不一定可以穿過每一個樣本點，但是基本符合；最右邊的圖，給的參量太多了，波動過大，沒有穩定性，不適合進行大量資料的擬合。

因此最左邊的稱為“欠擬合”，最右邊的稱為“過擬合”。

（二）正則化

二、邏輯迴歸

2.1 定義與問題引入

（一）邏輯（斯特）迴歸

有時候需要解決分類問題。

線性迴歸+閾值？

以得腫瘤的為例：

但是當加入3個新的樣本點時候，就會受噪聲影響比較大：

（二）本身是對離散值的預測，為什麼要叫回歸？

為了解決以上的問題（噪聲影響）希望可以將以上模型對映到（0,1）的概率上，進行概率測算

使用一個函式sigmoid

當x=0是，y=0.5，即一半的概率

（三）判定邊界

①判定邊界的三種類別：

邏輯迴歸就是在尋找判定邊界。

②線性判定邊界：

③非線性判定邊界：

2.2 損失函式

（一）在邏輯（斯特）迴歸中，不可以使用如下的損失函式，否則會形成一個跳動式的曲線，形成一個非凸的函式：

而我們在處理模型的時候期望的損失函式應該類似於這個樣子：

（二）通過進一步探索，得出了新的損失函式：

2.3 梯度下降與正則化及例項

使用梯度下降求解：

三、工程應用經驗

3.1 邏輯迴歸例項

（一）線性決策邊界

（二）非線性決策邊界

（三）LR演算法的應用經驗

LR < SVM/GBDT/RandomForest

①優勢

LR能以概率的形式輸出結果，而非只是0,1判定
LR的可解釋性強，可控度高
訓練快，feature engineering之後效果好
因為結果是概率，可以做ranking model

②應用

CTR預估（點選率預估）/推薦系統的learning to rank/各種分類場景
某搜尋引擎廠的廣告CTR預估基線版本是LR
某電商搜尋排序基線版是LR（廣告也是）
某電商的購物搭配推薦用了大量LR
某電商的購物搭配推薦用了大量LR
某現在一天廣告賺1000w+的新聞app排序基線是LR

3.2 樣本處理

（一）樣本量太大怎麼辦？

離散化後用one-hot編碼處理成0,1值
如果要用連續值，注意做scaling（幅度變化）
試試spark Mllib
試試取樣（注意取樣方式：日期 or 使用者 or 行為）（二）注意樣本的平衡
LR對樣本分佈十分敏感
如果樣本不均衡：下采樣（樣本量充足的情況下），上取樣（樣本數量不太足）
修改loss function，給不同權重
取樣後的predict結果，用作排序可以，但用作判定需要還原

3.3 特徵處理

（一）離散化

對映到高維空間，用linear的LR（快，且兼具更好的分割性）
稀疏化，0,1向量內積乘法運算速度快，計算結果方便儲存，容易擴充套件
離散化後，給線性模型帶來一定的非線性
模型穩定，收斂度高，魯棒性好
在一定程度上降低了過擬合風險

（二）特徵處理

①通過組合特徵引入個性化因素

uuid + tag
uuid + cluster_id

②注意特徵的頻度

區分特徵重要度
可以產出層次判定模型

③聚類/Hash

增強了極度係數的特徵表達力
減小了模型，加速運算

3.4 演算法調優

（一）假設只看模型

選擇適合的正則化（L1,L2,L1+L2）
正則化係數C
收斂的閾值e，迭代輪數
調整loss function給定不同權重
Bagging或其他方式的模型融合
最優化演算法額選擇（‘newton-cg’，‘lbfgs’，‘liblinear’，‘sag’）
小樣本liblinear，大樣本sag，多分類‘newton-cg’和‘lbfgs’

（二）liblinear

libsvm稀疏向量儲存格式，海量資料下單機速度還OK
高緯度離散化特徵，準確率逼近非線性切分
引數調節比較方便
Sklearn中的LR實際上式liblinear封裝的

機器學習演算法：迴歸分析與工程應用

一、線性迴歸 1.1 定義與定義引入（一）什麼是線性迴歸呢？有監督學習輸出/預測的結果yi為連續值變數需要學習對映f：x->y 假定輸入x和輸出y之間有線性相關關係（二）舉一個例子（單一變數）：（三）多變數的情況

第一個機器學習演算法：線性迴歸與梯度下降

# 第一個機器學習演算法：線性迴歸與梯度下降 ## 符號解釋 * $x^{(i)}$,$y^{(i)}$：某個訓練樣本 * $m$：樣本總數量 * $h_{\theta}$：假設函式 ## Linear regression（線性迴歸） ### 如何獲得一個線性迴歸模型？ * 將**訓練資料**放入

我的機器學習之旅（四）：回歸與工程應用

多個算法 ati function RR numpy pen 圖片 bsp 內容:線性回歸；邏輯回歸，應用場景。一、線性回歸有監督學習，根據學習樣本{x->y},學習一個映射f：X->Y(線性相關),輸出預測結果y_i。最簡單的例子：y=ax+b 重要組成

數學推導+純Python實現機器學習演算法：邏輯迴歸

自本系列第一講推出以來，得到了不少同學的反響和贊成，也有同學留言說最好能把數學推導部分寫的詳細點，筆者只能說盡力，因為打公式實在是太浪費時間了。。本節要和大家一起學習的是邏輯（logistic）迴歸模型，繼續按照手推公式+純 Python 的寫作套路。邏輯迴歸本質上跟邏輯這個詞不是很搭邊，叫這個名字完

機器學習演算法：Logistic迴歸學習筆記

一、Logistic Regression的理解角度一：輸入變數X服從logistic分佈的模型

機器學習演算法 - 線性迴歸

線性迴歸演算法解決迴歸問題思想簡單，容易實現許多強大的非線性模型的基礎結果具有很好的可解釋性蘊含機器學習中很多重要的思想$$y=ax_i +b$$ 樣本特徵只有一個的線性迴歸問題，為簡單線性迴歸。樣本特徵有多個的線性迴歸問題

機器學習3：sigmod函式與分類（啟用函式的來龍去脈）

sigmod函式： sigmod函式是常用的啟用函式，函式特點如上，用來表示分類概率。表面上看，是因為函式曲線正好可以用來描述概率關係0-1之間，並且有無限趨近的特點；實際上，sigmod函式確實與分類概率存在特定的聯絡。具體分析如下：在bayes分類中，後驗概率表示為

機器學習演算法——邏輯迴歸詳解

簡介邏輯迴歸（Logistic Regression）既是迴歸演算法，也是分類演算法。通常情況下用於解決分類問題。之前線性迴歸中，迴歸函式 y = Wx + b 中，y實際上就是我們要預測的值，如房價的價格預測。而線上性迴歸中，我們實際要求的函式為 p =

機器學習演算法：交叉驗證——（監督）學習器效能評估方法 [ sklearn.model_selection.cross_val_score()官方翻譯 ]

交叉驗證——（監督）學習器效能評估方法一、思考：交叉驗證有什麼好值得我們使用的？每個演算法模型都需要經過兩個階段：訓練和驗證。 1）一般情況下的，我們用的方法是：將原始資料集分為訓練資料集 & 測試資料集。優點：是，但僅僅是思路正確。缺點：思

機器學習---演算法---邏輯迴歸

轉自：https://blog.csdn.net/ustbbsy/article/details/80423294 1 引言最近做一個專案，準備用邏輯迴歸來把資料壓縮到[-1,1]，但最後的預測卻是和標籤類似（或者一樣）的預測。也就是說它的predict的結果

機器學習演算法：kNN(K-Nearest Neighbor)最鄰近規則分類

KNN最鄰近規則，主要應用領域是對未知事物的識別，即判斷未知事物屬於哪一類，判斷思想是，基於歐幾里得定理，判斷未知事物的特徵和哪一類已知事物的的特徵最接近； K最近鄰(k-Nearest Neighbor，KNN)分類演算法，是一個理論上比較成熟的方法，也是最簡單的機器

新興機器學習演算法：從無監督降維到監督降維

1.前言機器學習領域中所謂的降維就是指採用某種對映方法，將原高維空間中的資料點對映到低維度的空間中。降維的本質是學習一個對映函式 f : x->y，其中x是原始資料點的表達，目前最多使用向量

機器學習方法：迴歸（一）：線性迴歸Linear regression

開一個機器學習方法科普系列：做基礎回顧之用，學而時習之；也拿出來與大家分享。數學水平有限，只求易懂，學習與工作夠用。週期會比較長，因為我還想寫一些其他的，呵呵。 content: linear regression, Ridge, Lasso Logi

機器學習中的迴歸(regression)與分類(classification)問題

分類模型和迴歸模型本質一樣，分類模型是將回歸模型的輸出離散化。舉幾個例子: 1. Logistic Regression 和 Linear Regression： Linear Regression：輸出一個標量 wx+b，這個值是連續值，所以可以用

十分鐘掌握經典機器學習演算法-邏輯迴歸

機器學習故事匯-邏輯迴歸【咱們的目標】系列演算法講解旨在用最簡單易懂的故事情節幫助大家掌握晦澀無趣的機器學習，適合對數學很頭疼的同學們，小板凳走起！今天我們要來討論的一個分類演算法-邏輯迴歸（你有沒有搞錯，這不還是迴歸嗎，雖然名字帶上了迴歸其實它是一個非常實用的

6個步驟從頭開始編寫機器學習演算法：感知器案例研究

摘要：通用版學習機器學習演算法的方法，你值得擁有！從0開始編寫機器學習演算法是一種非常好的體驗當

簡單易學的機器學習演算法——Logistic迴歸

一、Logistic迴歸的概述 Logistic迴歸是一種簡單的分類演算法，提到“迴歸”，很多人可能覺得與分類沒什麼關係，Logistic迴歸通過對資料分類邊界的擬合來實現分類。而“迴歸”也就

簡單易學的機器學習演算法——嶺迴歸(Ridge Regression)

一、一般線性迴歸遇到的問題在處理複雜的資料的迴歸問題時，普通的線性迴歸會遇到一些問題，主要表現在：預測精度：這裡要處理好這樣一對為題，即樣本的數量和特徵的數量時，最小二乘迴歸會有較小的

簡單易學的機器學習演算法——分類迴歸樹CART

引言分類迴歸樹（Classification and Regression Tree，CART）是一種典型的決策樹演算法，CART演算法不僅可以應用於分類問題，而且可以用於迴歸問題。一、樹迴歸的

機器學習演算法——logistic迴歸

概念邏輯迴歸就是這樣的一個過程：面對或者分類問題，建立代價函式然後通優化方法迭代求解出最優的模型引數，然後測試驗證我們這個好壞。 Regression常規步驟Ÿ尋找h函式（即預測函式）； Ÿ構造 J函式（損失）；函式（損失）； Ÿ想辦法使得 J函式最小並求得迴歸參（θ）

機器學習演算法：迴歸分析與工程應用

一、線性迴歸

1.1 定義與定義引入

1.2 損失函式

1.3 梯度下降

1.4 過/欠擬合與正則化

二、邏輯迴歸

2.1 定義與問題引入

2.2 損失函式

2.3 梯度下降與正則化及例項

三、工程應用經驗

3.1 邏輯迴歸例項

3.2 樣本處理

3.3 特徵處理

3.4 演算法調優

相關推薦