相關性測量在工業檢測中的應用
0. 引言
相關性測量在工業檢測(尺寸測量)中經常會用到,比如你用相機測得工件的寬度與精密儀器測的寬度進行相關性測試,一般客戶會要求相關性達到85%,個別會要求達到90%以上。
那麼相關性該如何測試呢,公式是什麼?
1. Pearson 相關係數
統計學有三大相關係數:pearson(皮爾森)相關係數、spearman(斯皮爾曼)相關係數和kendall(肯德爾)相關係數。其中,spearman和kendall屬於等級相關係數亦稱為“秩相關係數”,是反映等級相關程度的統計分析指標,這兩應用中目前沒接觸過。pearson相關係數應用領域比較廣泛。
Pearson是一個介於-1和1之間的值,用來描述兩組線性的資料一同變化移動的趨勢。
當兩個變數的線性關係增強時,相關係數趨於1或-1;
當一個變數增大,另一個變數也增大時,表明它們之間是正相關的,相關係數大於0;
如果一個變數增大,另一個變數卻減小,表明它們之間是負相關的,相關係數小於0;
如果相關係數等於0,表明它們之間不存線上性相關關係。
Pearson相關係數等於兩個變數的協方差除以兩個變數的標準差,公式如下:
【注】:
協方差(Covariance):在概率論和統計學中用於衡量兩個變數的總體誤差。如果兩個變數的變化趨於一致,也就是說如果其中一個大於自身的期望值,另一個也大於自身的期望值,那麼兩個變數之間的協方差就是正值;如果兩個變數的變化趨勢相反,則協方差為負值。
其中u表示X的期望E(X), v表示Y的期望E(Y)。
相關係數也被稱為一種剔除了兩個變數量綱影響、標準化後的特殊協方差,具有兩個性質:
①也可以反映兩個變數變化時是同向還是反向,如果同向變化就為正,反向變化就為負;
②它消除了兩個變數變化幅度的影響,而只是單純反應兩個變數每單位變化時的相似程度;
2. Pearson係數對絕對數值不敏感,pearson描述的是兩組資料變化移動的趨勢
考慮這三組資料,1:(1.0,2.0,3.0,4.0), 2:(40.0,50.0,70.0,80.0), 3:(50.0,60.0,70.0,80.0),
我們可以直觀的認為2和3更為相似,它們的重疊評分數目一致,趨勢也相同,記錄1雖然也滿足上述的條件,但是它整體數值很低。
在現實中,有人習慣於給出更高的評分,而有人則恰恰相反。
利用pearson計算它們之間的相似度為:
1&2: 0.9899494936611665
2&3: 0.9899494936611665
1&3: 0.9999999999999999
可以看出pearson係數對絕對數值並不敏感,它確實只是描述了兩組資料變化的趨勢。
3. 相關係數:考察兩個事物(在資料裡我們稱之為變數)之間的相關程度。
(1)、當相關係數為0時,X和Y兩變數無關係。
(2)、當X的值增大(減小),Y值增大(減小),兩個變數為正相關,相關係數在0.00與1.00之間。
(3)、當X的值增大(減小),Y值減小(增大),兩個變數為負相關,相關係數在-1.00與0.00之間。
相關係數的絕對值越大,相關性越強,相關係數越接近於1或-1,相關度越強,相關係數越接近於0,相關度越弱。
通常情況下通過以下取值範圍判斷變數的相關強度:
0.8-1.0 極強相關
0.6-0.8 強相關
0.4-0.6 中等程度相關
0.2-0.4 弱相關
0.0-0.2 極弱相關或無相關
4. pearson皮爾森相關係數
皮爾遜相關係數是一種度量兩個變數間相關程度的方法。它是一個介於 1 和 -1 之間的值,其中,1 表示變數完全正相關, 0 表示無關,-1 表示完全負相關。
當兩個變數的標準差都不為零時,相關係數才有定義,皮爾遜相關係數適用於:
(1)、兩個變數之間是線性關係,都是連續資料。
(2)、兩個變數的總體是正態分佈,或接近正態的單峰分佈。
(3)、兩個變數的觀測值是成對的,每對觀測值之間相互獨立。
5. 小結
6. Excel中的相關性分析,可採用RSQ(known_y's,known_x's);RSQ返回pearson相關係數的平方,又稱R平方;
7. 另一相關係數的公式如下:
①相關係數只是用來衡量兩個變數線性相關程度的指標;也就是說,你必須先確認這兩個變數是線性相關的,然後這個相關係數才能告訴你他倆相關程度如何;
②非線性相關也會導致線性相關係數很大;
③做pearson相關判定時,先做散點圖,觀察兩變數的散點是否趨於一條直線,也可以這樣說,兩個變數是否是線性關係。只有知道了兩個變數是線性關係的才能有pearson相關係數;
④做pearson相關分析時,兩個變數的聯合變數必須符合正態分佈,但不是說兩個變數各自必須符合正態分佈,一般情況下,其中一個變數符合正態分佈的時候,同樣可以進行線性相關分析,而且結果也相當可靠。
⑤如果樣本變數中存在極端值,可以對極端值進行剔除,然後再進行相關分析。又或資料不合適線性分析時,可以先對資料進行調整,比如取對數後,再進行相關分析。
8. 思考一個問題,如何才能提高兩個變數的相關性呢,相關性增長的影響因素是什麼?
本篇文章參考:
1. https://blog.csdn.net/wenbingoon/article/details/17414063
2. http://www.cnblogs.com/kemaswill/archive/2012/11/01/2749842.html
3. https://blog.csdn.net/wangdong1106/article/details/52590447
4. https://blog.csdn.net/SZuoDao/article/details/52314420?locationNum=7
5. https://blog.csdn.net/witforeveryang/article/details/42585791
6. https://www.zhihu.com/question/20852004
7. http://www.doc88.com/p-1476192606238.html