python資料預處理：資料共線性處理

阿新 • • 發佈：2018-11-26

何為共線性：

共線性問題指的是輸入的自變數之間存在較高的線性相關度。共線性問題會導致迴歸模型的穩定性和準確性大大降低，另外，過多無關的維度計算也很浪費時間

共線性產生原因：

變量出現共線性的原因：

資料樣本不夠，導致共線性存在偶然性，這其實反映了缺少資料對於資料建模的影響，共線性僅僅是影響的一部分
多個變數都給予時間有共同或相反的演變趨勢，例如春節期間的網路銷售量和銷售額都相對與正常時間有下降趨勢。
多個變數存在一定的推移關係，但總體上變數間的趨勢一致，只是發生的時間點不一致，例如廣告費用和銷售額之間，通常是品牌廣告先進行大範圍的曝光和資訊推送，經過一定時間傳播之後，才會在銷售額上做出反映。

多變數之間存線上性的關係。例如y代表訪客數，用x代表展示廣告費用，那麼二者的關係很可能是y=2*x + b

如何檢驗共線性：

檢驗共線性：

容忍度（Tolerance）：容忍度是每個自變數作為因變數對其他自變數進行迴歸建模時得到的殘差比例，大小用1減得到的決定係數來表示。容忍度值越小說明這個自變數與其他自變數間越可能存在共線性問題。
方差膨脹因子 VIF是容忍度的倒數，值越大則共線性問題越明顯，通常以10作為判斷邊界。當VIF<10,不存在多重共線性；當10<=VIF<100,存在較強的多重共線性；當VIF>=100, 存在嚴重多重共線性。
特徵值（Eigenvalue）：該方法實際上就是對自變數做主成分分析，如果多個維度的特徵值等於0，則可能有比較嚴重的共線性。

相關係數：如果相關係數R>0.8時就可能存在較強相關性

如何處理共線性：

處理共線性：

增大樣本量：增大樣本量可以消除猶豫資料量不足而出現的偶然的共線性現象，在可行的前提下這種方法是需要優先考慮的
嶺迴歸法（Ridge Regression）：實際上是一種改良最小二乘估計法。通過放棄最小二乘法的無偏性，以損失部分資訊、降低精度為代價來獲得更實際和可靠性更強的迴歸係數。因此嶺迴歸在存在較強共線性的迴歸應用中較為常用。
逐步迴歸法（Stepwise Regression）:每次引入一個自變數進行統計檢驗，然後逐步引入其他變數，同時對所有變數的迴歸係數進行檢驗，如果原來引入的變數由於後面變數的引入而變得不再顯著，那麼久將其剔除，逐步得到最有迴歸方程。

主成分迴歸（Principal Components Regression）:通過主成分分析，將原始參與建模的變數轉換為少數幾個主成分，麼個主成分是原變數的線性組合，然後基於主成分做迴歸分析，這樣也可以在不丟失重要資料特徵的前提下避開共線性問題。
人工去除：結合人工經驗，對自變數進行刪減，但是對操作者的業務能力、經驗有很高的要求。

部分方法python程式碼實現

import numpy as np
import pandas as pd
from sklearn.linear_model import Ridge
from sklearn.decomposition import PCA
from sklearn.linear_model import LinearRegression

# 匯入資料
df = pd.read_csv('https://raw.githubusercontent.com/ffzs/dataset/master/boston/train.csv')

# 切分自變數
X = df.iloc[:, 1:-1].values

# 切分預測變數
y = df.iloc[:, [-1]].values

# 使用嶺迴歸處理
import matplotlib.pyplot as plt
plt.figure(figsize=(8,6))
n_alphas = 20
alphas = np.logspace(-1,4,num=n_alphas)
coefs = []
for a in alphas:
    ridge = Ridge(alpha=a, fit_intercept=False)
    ridge.fit(X, y)
    coefs.append(ridge.coef_[0])
ax = plt.gca()
ax.plot(alphas, coefs)
ax.set_xscale('log')
handles, labels = ax.get_legend_handles_labels()
plt.legend(labels=df.columns[1:-1])
plt.xlabel('alpha')
plt.ylabel('weights')
plt.axis('tight')
plt.show()

在這裡插入圖片描述

只有nox有些許波動。

# 主成分迴歸進行迴歸分析
pca_model = PCA()
data_pca = pca_model.fit_transform(X)

# 得到所有主成分方差
ratio_cumsum = np.cumsum(pca_model.explained_variance_ratio_)
# 獲取方差佔比超過0.8的索引值
rule_index = np.where(ratio_cumsum > 0.9)
# 獲取最小的索引值
min_index = rule_index[0][0]
# 根據最小索引值提取主成分
data_pca_result = data_pca[:, :min_index+1]
# 建立迴歸模型
model_liner = LinearRegression()
# 訓練模型
model_liner.fit(data_pca_result, y)
print(model_liner.coef_)
#[[-0.02430516 -0.01404814]]

參考：
https://www.jianshu.com/p/ef1b27b8aee0?from=timeline

python資料預處理：資料共線性處理

何為共線性：共線性問題指的是輸入的自變數之間存在較高的線性相關度。共線性問題會導致迴歸模型的穩定性和準確性大大降低，另外，過多無關的維度計算也很浪費時間共線性產生原因：變量出現共線性的原因：資料樣本不夠，導致共線性存在偶然性，這其實反映了缺少資料對於資料建

python資料預處理：資料標準化

何為標準化：在資料分析之前，我們通常需要先將資料標準化（normalization），利用標準化後的資料進行資料分析。資料標準化也就是統計資料的指數化。資料標準化處理主要包括資料同趨化處理和無量綱化處理兩個方面。資料同趨化處理主要解決不同性質資料問題，對不同性質指標直接加總不能正確

python資料預處理：資料相關性

何為相關性：相關性分析是指對具備相關性關係的變數進行分析，從而衡量變數間的相關程度或密切程度。相關性可以應用到所有資料的分析過程中，任何事物之間都是存在一定的聯絡。相關性用R（相關係數）表示，R的取值範圍是[-1, 1] 相關和因果：相關並不是因果，例如商品銷售活動時，通

python資料預處理：資料抽樣

何為資料抽樣：抽樣是資料處理的一種基本方法，常常伴隨著計算資源不足、獲取全部資料困難、時效性要求等情況使用。抽樣方法：一般有四種方法：隨機抽樣直接從整體資料中等概率抽取n個樣本。這種方法優勢是，簡單、好操作、適用於分佈均勻的場景；缺點是總體大時無法一一編

python資料預處理：資料降維

資料為何要降維資料降維可以降低模型的計算量並減少模型執行時間、降低噪音變數資訊對於模型結果的影響、便於通過視覺化方式展示歸約後的維度資訊並減少資料儲存空間。因此，大多數情況下，當我們面臨高維資料時，都需要對資料做降維處理。資料降維有兩種方式：特徵選擇，維度轉換特徵選擇

python資料預處理：資料離散化

何為離散化：一些資料探勘演算法中，要求資料是分類屬性形式。因此常常需要將連續屬性的資料通過斷點進行劃分最後歸屬到不同的分類，即離散化。為什麼要離散化：調高計算效率分類模型計算需要給予距離計算模型（k均值、協同過濾）中降低異常資料對模型的影響

3-6 用 Pandas 進行資料預處理：資料清洗與視覺化（版本：py3）

主要內容：格式轉換缺失資料異常資料資料標準化操作格式轉換如Python記錄時間的方式，不能夠直接實現減運算，就需要進行轉換 pandas.to_datetime 缺失資料忽略缺失資料直接標記利用平均值、最常出現值進行填充異常資料處

資料預處理：樣本非平衡處理

轉載：https://zhuanlan.zhihu.com/p/37311047 非平衡資料會影響最後的評判效果，嚴重的會帶來過擬合的效果，即模型總是把樣本劃分到樣本量較多的那一種。為了讓模型的評判更準確，我們需要對非平衡資料

tensorflow預處理：資料標準化的幾種方法

資料歸一化問題是資料探勘中特徵向量表達時的重要問題，當不同的特徵成列在一起的時候，由於特徵本身表達方式的原因而導致在絕對數值上的小資料被大資料“吃掉”的情況，這個時候我們需要做的就是對抽取出來的features vector進行歸一化處理，以保證每個特徵被分類器平等對待。下面我

Python入門必學：資料型別和變數的用法

什麼是資料型別？計算機顧名思義就是可以做數學計算的機器，因此，計算機程式理所當然地可以處理各種數值。但是，計算機能處理的遠不止數值，還可以處理文字、圖形、音訊、視訊、網頁等各種各樣的資料，不同的資料，需要定義不同的資料型別。在Python中，能夠直接處理的資料型別有以下幾種：整數 Pytho

R與Python手牽手：資料框的構建、讀取與基本描述

在雙11免費Get新知識的人，才是最會花錢的人，也將是最會賺錢的人! 別的專場拼消費，唯有天善學院，投資你的未來！ ▲詳情點選▲ 作者：黃天元，復旦大學博士在讀，目前研究涉及文字挖掘、社交網路分析和機器學習等。希望與大家分享學習經驗，推廣並加深R語言在業界的應用。

python 學習彙總48：資料型別相互轉換（基礎學習- 推薦 tcy）

型別轉換 2018/9/12 1.轉換函式 str(x) 將物件x轉換為字串 str(bytes_or_buffer[, encoding[, errors]]) repr(x) 將物件x轉換為表示式字串 eval(str) 計算字串中表達式的值 ascii()

python 全棧開發：資料型別整體分析

資料型別初始資料型別：　　　　　　 int :用於計算。　　　　　　　　　例子：1、2、3、4、.......................... 　　　　　　　　　常用方法操作： bit_length() ps:求一個數字轉換成二進

python django學習二： static文件處理與線上部署測試

image 運行 color 文件處理收集 scrip 線上部署 ges sta static文件相關操作涉及：a. 文件位置與訪問路徑映射b. setting.py與static相關配置 STATIC_URLSTATIC_ROOTSTATICFILES_DIRS

資料結構筆記：資料的藝術

資料的概念 -程式的操作物件，用於描述客觀事物資料的特點 -可以輸入到計算機 -可以被計算機程式處理資料中的新概念 -資料元素 ·組成資料的基本單位 -資料項 ·一個數據元素由若干資料項組成 -資料物件 ·性質相同的資料元素的結合資料結構指資料物

資料探勘：資料（資料物件與屬性型別）

一、概述現實中的資料一般有噪聲、數量龐大並且可能來自異種資料來源。資料集由資料物件組成，一個數據物件代表一個實體。資料物件：又稱樣本、例項、資料點或物件。資料物件以資料元組的形式存放在資料庫中，資料庫的行對應於資料物件，列對應於屬性。屬性是一個數據欄位，表示資料物件的特徵，在

資料探勘：資料（資料的基本統計描述）

一、概述對應成功的資料預處理而言，把握資料的全貌至關重要。基本統計描述可以用來識別資料的性質，凸顯哪些資料值應該視為噪聲或離群點。二、中心趨勢度量：均值、中位數、眾數、中列數也就是度量資料分佈的中部或中心位置。（給定一種屬性，它的值大部分落在何處）　1

後 Hadoop 時代的大資料技術思考：資料即服務

備註：此部落格轉自搜狐科技部落格，原作者地址請點選此處標題：後 Hadoop 時代的大資料技術思考：資料即服務 1. Hadoop 的神話正在破滅 IBM leads BigInsights for Hadoop out behind barn. Shot

玩轉大資料系列之一：資料採集與同步

資料的採集和同步，是先將資料從裝置、或者本地資料來源採集、同步到阿里雲上，然後在阿里雲上對資料進行分析和處理，最終完成您的業務要求。本文向您介紹阿里雲各產品的資料採集和同步的操作實戰文章，您可以根據您使用阿里雲產品，檢視相應的文件教程。關於資料採集，DataWorks專門有一個模組叫做資料整合，是阿里巴巴

動態放入後臺給的鍵值對顯示出來，然後動態返回資料（難點：資料格式問題）

一、動態放入後臺的值將'應發'下的鍵資料${key}放入html中，記得使用轉義字元 `` ，這個符號實在鍵盤左上角的第二列第一個，來表示裡面寫的是html格式的程式碼。然後 ${this.data.data['應發'][i][key]}是遍歷每行的key對應的值，

python資料預處理 ：資料共線性處理

何為共線性：

共線性產生原因：

如何檢驗共線性：

如何處理共線性：

部分方法python程式碼實現

相關推薦

python資料預處理：資料共線性處理