1. 程式人生 > >相關性測量在工業檢測中的應用

相關性測量在工業檢測中的應用

0. 引言

    相關性測量在工業檢測(尺寸測量)中經常會用到,比如你用相機測得工件的寬度與精密儀器測的寬度進行相關性測試,一般客戶會要求相關性達到85%,個別會要求達到90%以上。

那麼相關性該如何測試呢,公式是什麼?

1. Pearson 相關係數

    統計學有三大相關係數:pearson(皮爾森)相關係數、spearman(斯皮爾曼)相關係數和kendall(肯德爾)相關係數。其中,spearman和kendall屬於等級相關係數亦稱為“秩相關係數”,是反映等級相關程度的統計分析指標,這兩應用中目前沒接觸過。pearson相關係數應用領域比較廣泛。

    Pearson是一個介於-1和1之間的值,用來描述兩組線性的資料一同變化移動的趨勢。

        當兩個變數的線性關係增強時,相關係數趨於1或-1;

        當一個變數增大,另一個變數也增大時,表明它們之間是正相關的,相關係數大於0;

        如果一個變數增大,另一個變數卻減小,表明它們之間是負相關的,相關係數小於0;

        如果相關係數等於0,表明它們之間不存線上性相關關係。

   Pearson相關係數等於兩個變數的協方差除以兩個變數的標準差,公式如下:

                                     

 

【注】:

協方差(Covariance):在概率論和統計學中用於衡量兩個變數的總體誤差。如果兩個變數的變化趨於一致,也就是說如果其中一個大於自身的期望值,另一個也大於自身的期望值,那麼兩個變數之間的協方差就是正值;如果兩個變數的變化趨勢相反,則協方差為負值。

                                                                              

其中u表示X的期望E(X), v表示Y的期望E(Y)。

相關係數也被稱為一種剔除了兩個變數量綱影響、標準化後的特殊協方差,具有兩個性質:

①也可以反映兩個變數變化時是同向還是反向,如果同向變化就為正,反向變化就為負;

②它消除了兩個變數變化幅度的影響,而只是單純反應兩個變數每單位變化時的相似程度;

2. Pearson係數對絕對數值不敏感,pearson描述的是兩組資料變化移動的趨勢
    考慮這三組資料,1:(1.0,2.0,3.0,4.0), 2:(40.0,50.0,70.0,80.0), 3:(50.0,60.0,70.0,80.0),

我們可以直觀的認為2和3更為相似,它們的重疊評分數目一致,趨勢也相同,記錄1雖然也滿足上述的條件,但是它整體數值很低。

在現實中,有人習慣於給出更高的評分,而有人則恰恰相反。
    利用pearson計算它們之間的相似度為:
     1&2: 0.9899494936611665

     2&3: 0.9899494936611665

     1&3: 0.9999999999999999
    可以看出pearson係數對絕對數值並不敏感,它確實只是描述了兩組資料變化的趨勢。

3. 相關係數:考察兩個事物(在資料裡我們稱之為變數)之間的相關程度。 

(1)、當相關係數為0時,X和Y兩變數無關係。

(2)、當X的值增大(減小),Y值增大(減小),兩個變數為正相關,相關係數在0.00與1.00之間。

(3)、當X的值增大(減小),Y值減小(增大),兩個變數為負相關,相關係數在-1.00與0.00之間。 

相關係數的絕對值越大,相關性越強,相關係數越接近於1或-1,相關度越強,相關係數越接近於0,相關度越弱。

通常情況下通過以下取值範圍判斷變數的相關強度:

0.8-1.0     極強相關                 

0.6-0.8     強相關                 

0.4-0.6     中等程度相關                 

0.2-0.4     弱相關                 

0.0-0.2     極弱相關或無相關

4. pearson皮爾森相關係數

皮爾遜相關係數是一種度量兩個變數間相關程度的方法。它是一個介於 1 和 -1 之間的值,其中,1 表示變數完全正相關, 0 表示無關,-1 表示完全負相關。

當兩個變數的標準差都不為零時,相關係數才有定義,皮爾遜相關係數適用於:

(1)、兩個變數之間是線性關係,都是連續資料。

(2)、兩個變數的總體是正態分佈,或接近正態的單峰分佈。

(3)、兩個變數的觀測值是成對的,每對觀測值之間相互獨立。

5. 小結

6.  Excel中的相關性分析,可採用RSQ(known_y's,known_x's);RSQ返回pearson相關係數的平方,又稱R平方;

7. 另一相關係數的公式如下:

                                                         

①相關係數只是用來衡量兩個變數線性相關程度的指標;也就是說,你必須先確認這兩個變數是線性相關的,然後這個相關係數才能告訴你他倆相關程度如何;

非線性相關也會導致線性相關係數很大

③做pearson相關判定時,先做散點圖,觀察兩變數的散點是否趨於一條直線,也可以這樣說,兩個變數是否是線性關係。只有知道了兩個變數是線性關係的才能有pearson相關係數;
④做pearson相關分析時,兩個變數的聯合變數必須符合正態分佈,但不是說兩個變數各自必須符合正態分佈,一般情況下,其中一個變數符合正態分佈的時候,同樣可以進行線性相關分析,而且結果也相當可靠。
⑤如果樣本變數中存在極端值,可以對極端值進行剔除,然後再進行相關分析。又或資料不合適線性分析時,可以先對資料進行調整,比如取對數後,再進行相關分析。

8. 思考一個問題,如何才能提高兩個變數的相關性呢,相關性增長的影響因素是什麼?

本篇文章參考:

1. https://blog.csdn.net/wenbingoon/article/details/17414063

2. http://www.cnblogs.com/kemaswill/archive/2012/11/01/2749842.html

3. https://blog.csdn.net/wangdong1106/article/details/52590447

4. https://blog.csdn.net/SZuoDao/article/details/52314420?locationNum=7

5. https://blog.csdn.net/witforeveryang/article/details/42585791

6. https://www.zhihu.com/question/20852004

7. http://www.doc88.com/p-1476192606238.html