1. 程式人生 > >Udacity課程脈絡-統計學基礎(五)-相關性 Corelation

Udacity課程脈絡-統計學基礎(五)-相關性 Corelation

前言

本章目錄如下:

  • 相關性
    • One variable vs Two variable
    • The variables x and y
    • Stronger relationship (如何衡量相關性)
    • 相關係數(corelation coefficient)
    • 顯著性分析(Hypothesis testing for ρ\rho)
    • ρ\rho置信區間 (CI for ρ\rho)

One variable vs Two variable

之前學習的諸如Z, T, F分佈都是基於一個變數(one variable)來分析顯著性,涉及到的概念有σ ,μ ,x\overline{x}

等。 one-variable

本章我們關注的是如何分析兩個變數(two variables),從而引出相關性概念。

two-variables

舉個栗子: two-variables examples

The variables x and y

xy

xy之間的關係通過散點圖(scatter plot)來體現。 scatter plot

Stronger relationship

stronger relationship

相關係數(corelation coefficient)

下面的截圖已經說清楚了,我就不多言了。

相關係數

r = 1 和 r = -1 的具體?,可以看出所有的散點沒有偏離,都落在同一條直線上: r=1

r=-1

可通過googlesheet或Excel對散點圖計算相關性: googlesheet

顯著性分析 ρ\rho

儘管我們得出了相關性係數,但是這種基於樣本的推斷結果也有可能是偶發的(之前我們發生過樣本均值和總體均值實際上差異很大)。這正是我們需要對相關性係數做顯著性分析的原因。

:我們是顯著性分析針對的是總體而非樣本 ρ\rho: 變數在總體(population)中的相關性 (corelation between variables in the population) r: 變數在樣本(sample)中的相關性(如之前圖中所示)

首先我們找出零假設和備擇假設,計算基於t分佈

p

ρ\rho置信區間 (CI for ρ\rho) CI