1. 程式人生 > >【資料探勘知識點七】相關與迴歸分析

【資料探勘知識點七】相關與迴歸分析

相關與迴歸分析

客觀現象之間的數量聯絡存在兩種不同型別:一種是函式關係,另一種是相關關係。當一個或幾個變數取一定的值時,另一個變數有確定值與之對應,這種關係稱為確定性的函式關係,一般把作為影響因素的變數稱為自變數,把發生對應變化的變數稱為因變數。當一個或幾個相互聯絡的變數取一定數值時,與之相對應的另一變數的值雖然不確定,但它仍按某種規律在一定的範圍內變化,變數間的這種相互關係,稱為具有不確定性的相關關係。

變數之間的函式關係和相關關係,在一定條件下是可以互相轉化的。客觀現象的函式關係可以用數學分析的方法去研究,而研究客觀現象的相關關係必須藉助於統計學中的相關和迴歸分析方法。

客觀現象的相關關係,按相關的程度可分為完全相關、不完全相關、不相關,按相關的方向分為正相關和負相關,按相關的形式分為線性相關和非線性相關,按所研究的變數多少分為單相關、複相關、偏相關。

相關分析與迴歸分析是研究現象之間相關關係的兩種基本方法。相關分析,是用一個指標來表明現象間相互依存的密切程度。迴歸分析,是根據相關關係的具體形態,選擇一個合適的數學模型,來近似地表達變數間的平均變化關係。

相關分析和迴歸分析有共同的研究物件,可互相補充,相關分析依靠迴歸分析來表明現象數量相關的具體形式;而回歸分析依靠相關分析來表明現象數量變化的相關程度。只有當變數之間存在高度相關時,進行迴歸分析尋求其相關的具體形式才有意義,基於這個原因,迴歸分析和相關分析也一同合稱為相關關係分析。

不過迴歸分析和相關分析在研究目的和方法上還是有區別的。相關分析研究變數之間相關的方向和相關的程度,但是相關分析不能指出變數間相關關係的具體形式,也無法從一個變數的變化來推測另一個變數的變化情況。迴歸分析則研究變數之間相互關係的具體形式,對具有相關關係的變數之間的數量聯絡進行測定,從而為估算和預測提供一個重要方法。因此,相關分析不必確定變數中那個是自變數,那個是因變數,其所涉及的變數可以都是隨機變數;而回歸分析必須實現研究確定具有相關關係的變數中那個為自變數那個為因變數。一般地說,迴歸分析中因變數是隨機的,而把自變數作為研究時給定的非隨機變數。

相關圖,或說是散點圖,是研究相關關係的直觀工具,一般在進行詳細的定量分析之前,可以先利用它對現象之間存在的相關關係的方向、形式和密切程度做大致的判斷。

單相關分析是對兩個變數之間的線性相關程度進行分析。單相關分析所採用的尺度為單相關係數,簡稱相關係數。

在實際的客觀現象分析研究中,相關係數一般都是利用樣本資料計算的,因而帶有一定隨機性。樣本容量越小其可信程度就越差,因此也需要進行檢驗。相關係數的顯著性檢驗問題可分為兩類:一是對總體相關係數是否等於0進行檢驗;二是對總體相關係數是否等於某一個給定的不為0的數值進行檢驗。

當變數之間存在顯著的相關關係時,可以利用一定的數學模型對其進行迴歸分析。在迴歸分析中,最簡單的模型是隻有一個因變數和一個自變數的線性迴歸模型,即一元線性迴歸模型,又稱簡單線性迴歸模型。該模型假定因變數Y主要受自變數X的影響,它們之間存在這近似的線性函式關係,即有:

迴歸模型中的引數估計出來之後,需進行檢驗。迴歸模型的檢驗包括理論意義檢驗、一級檢驗、二級檢驗。一級檢驗也稱為統計學檢驗,是利用統計學中抽樣理論來檢驗樣本回歸方程的可靠性,具體可分為擬合程度評價和顯著性檢驗。二級檢驗又稱為經濟計量學檢驗,是對標準線性迴歸模型的假定條件能否得到滿足進行檢驗,具體包括序列相關檢驗、異方差性檢驗、多重共線性檢驗等。所謂擬合程度,是指樣本觀測值聚集在樣本回歸線周圍的緊密程度。顯著性檢驗包括兩方面,一個是對各回歸係數的顯著性檢驗,二是對整個迴歸方程的顯著性檢驗。

建立迴歸模型的重要目的是進行預測。如果所擬合的樣本回歸方程經過檢驗,被認為具有經濟意義,同時被證明具有較高的擬合程度,就可以利用其進行預測。預測可能存在誤差,主要來自模型本身中的誤差因素、迴歸係數估計值和真值不一致、自變數X的設定值與實際值的偏離、未來總體迴歸係數發生變化四個方面。

研究線上性相關條件下,兩個和兩個以上自變數對一個因變數的數量變化關係,稱為多元線性迴歸,表現這一數量關係的數學公式,稱為多元線性迴歸模型。多元線性迴歸模型是一元線性迴歸模型的擴充套件,基本原理類似,計算複雜度增大。