Udacity課程脈絡-統計學基礎(五)-相關性 Corelation
阿新 • • 發佈:2018-12-12
前言
本章目錄如下:
- 相關性
- One variable vs Two variable
- The variables x and y
- Stronger relationship (如何衡量相關性)
- 相關係數(corelation coefficient)
- 顯著性分析(Hypothesis testing for )
- 置信區間 (CI for )
One variable vs Two variable
之前學習的諸如Z, T, F分佈都是基於一個變數(one variable)來分析顯著性,涉及到的概念有σ ,μ , 等。
本章我們關注的是如何分析兩個變數(two variables),從而引出相關性概念。
舉個栗子:
The variables x and y
xy之間的關係通過散點圖(scatter plot)來體現。
Stronger relationship
相關係數(corelation coefficient)
下面的截圖已經說清楚了,我就不多言了。
r = 1 和 r = -1 的具體?,可以看出所有的散點沒有偏離,都落在同一條直線上:
可通過googlesheet或Excel對散點圖計算相關性:
顯著性分析
儘管我們得出了相關性係數,但是這種基於樣本的推斷結果也有可能是偶發的(之前我們發生過樣本均值和總體均值實際上差異很大)。這正是我們需要對相關性係數做顯著性分析的原因。
注:我們是顯著性分析針對的是總體而非樣本 : 變數在總體(population)中的相關性 (corelation between variables in the population) r: 變數在樣本(sample)中的相關性(如之前圖中所示)
首先我們找出零假設和備擇假設,計算基於t分佈
置信區間 (CI for )