資料分析學習筆記part_4

阿新 • • 發佈：2018-10-31

資料分析

Lesson 4 : 統計學

描述性統計學 - 第一部分

資料型別

數值型別
- 數值資料採用允許我們執行數學運算（例如計算狗的數量）的數值。
分類資料
- 分類資料用於標記一個群體或一組條目（例如狗的品種 —— 牧羊犬、拉布拉多、貴賓犬等）

定序和定類

分類定序和分類定類
- 我們可以進一步將分類資料分為兩類: 定序與定類。
  
  分類定序資料有排名順序（例如與狗的互動從很差到很好排序）。
  
  分類定類資料沒有排序或排名（如狗的品種）。

連續和離散資料

我們可以將數值資料視為連續或離散的。

連續資料可以分為更小的單位，並且仍然存在更小的單位。一個例子就是狗的年齡 - 我們可以以年、月、日、小時、秒為單位測量年齡，但是仍然存在可以與年齡關聯的更小單位。

離散資料僅採用可數值。我們互動的狗的數量就是離散資料型別的一個例子。

資料型別
數值:	連續	離散
	身高、年齡、收入	書中的頁數、院子裡的樹、咖啡店裡的狗

分類:	定序	定類
	字母成績等級、調查評級	性別、婚姻狀況、早餐食品

數值和分類

數值可以進一步分為連續與離散。

分類資料可以分為定序與定類。

總結

數值與分類
- 其中一些可能有點棘手 —— 雖然郵政編碼是一個數字，但它們並非數值變數。如果我們將兩個郵政編碼加在一起，並不會從得到的新值中獲得任何有用的資訊。因此，這是一個分類變數。
- 身高、年齡、書中的頁數和年收入採用的值我們可以進行加、減和執行其他運算，來獲得有用的見解。因此，這些是數值資料。
- 性別、字母成績等級、早餐型別、婚姻狀態和郵政編碼可以視為一組物品或個人的標籤。因此，它們是分類資料。
連續和離散
- 要區分我們的資料是連續還是離散的，要看我們是否能將資料分割成更小的單元。想想時間 —— 我們可以用年、月、日、小時、分鐘或秒來衡量一個事件，甚至是在秒級，我們知道仍然有更小的單位可以用來衡量時間。因此，我們知道此資料型別為連續的。身高、年齡和收入都是連續資料的例子。或者，我們知道書中的頁數、我數的咖啡店外的狗數量或院子裡的樹為離散資料。我們可不想將狗一分為二。
定序與定類
- 在看定類變數時，我們發現性別、婚姻狀態、郵政編碼和早餐食品為定類變數，這種型別的資料沒有相關的順序排列。無論你早餐吃麥片粥、吐司、雞蛋還是隻喝咖啡，它並沒有相關的排序。
  
  相反，字母成績等級或調查評級作為定序資料具有關聯的排序。如果獲得 A，它高於 A-。A- 的排名高於 B+，以此類推……定序變數在評級量表上很常見。在很多情況下，我們將這些定序變數變為數字，這樣可以更容易地進行分析。

集中趨勢測量

分析數值資料
- 分析數值資料有四個主要方面。
  1. Center 集中趨勢測量
  2. Spread 離散程度測量
  3. Shape 資料的形狀
  4. Outliers 異常值
分析分類資料
- 儘管視訊中並未討論，但分析分類資料要考慮的部分較少。分類資料的分析方法通常是檢視落入每個組的獨立個體的數量或比例。例如，如果我們在看狗的品種，我們會關心每個品種有多少隻狗，或者每個品種的狗的比例如何。
集中趨勢測量
- 集中趨勢測量的方式有三種:
  1. Mean 均值
  2. Median 中位數
  3. Mode 眾數
均值（mean）
- 均值在數學中通常稱為平均數或預期值。我們通過將所有值相加，然後除以資料集中所有測量值的個數來計算均值。
中位數（median）
- 中位數將我們的資料分為兩部分，一半低於它，一半高於它。我們在此視訊中發現，如何計算中位數取決於我們有偶數個還是奇數個觀察值。
- 奇數個值的中位數
  
  如果我們有奇數個觀察值，中位數直接是中間的那個數字。例如，如果我們有 7 個觀察值並按從小到大排列，則中位數是第四個值。如果我們有 9 個觀察值，則中位數是第五個值。
- 偶數個值的中位數
  
  如果我們有偶數個觀察值，中位數是中間兩個值的平均值。例如，如果我們有 8 個觀察值並從小到大排列，則計算第四和第五個值的平均值。
- 要計算中位數，我們必須首先對值排序。
- 我們使用平均數還是中位數來描述資料集，很大程度上取決於我們資料集的形狀以及是否有任何異常值。

眾數（mode）

眾數指一組資料中出現次數最多的資料值。

一個數據集中可能有多個眾數，也可能沒有眾數。
無眾數
- 如果資料集中的所有值出現的頻數相同，則不存在眾數。如果我們有一組資料集：
  
  1, 1, 2, 2, 3, 3, 4, 4
  
  則沒有眾數，因為所有觀察值發生的次數相同。
多個眾數
- 如果兩個（或多個）數字出現的次數都是最多的，則有多個眾數。如果我們有一組資料集:
  
  1, 2, 3, 3, 3, 4, 5, 6, 6, 6, 7, 8, 9
  
  其中有兩個眾數 3 和 6，因為這兩個值都出現了三次，出現頻率最高，而其他的值都只出現了一次。

隨機變數

隨機變數
- 是某些程序（很多時候……“某些程序”意義比較模糊）的可能值的佔位符。如前所述，符號能幫我們簡化複雜的意義（通常是單個字母或單個字元）。我們看到隨機變數用大寫字母表示（X、Y 或 Z 是表示隨機變數的常用方法）。
- 我們可能有隨機變數 X，它是某人在網站上所花費時間的可能值的佔位符。或者隨機變數 Y，它是某個人是否購買產品的可能值的佔位符。
- X 是某人在我們網站花費時間的可能值的'佔位符'，它可以是從 0 到無限的任意值。
大小寫
- 隨機變數用大寫字母表示。每當我們觀察到這些隨機變數的一個結果，就用相同字母的小寫表示。

符號表達式

聚合
- 聚合是一種將多個數字轉換為較少數字（通常為一個數字）的方法。
求和
- 求和是一種常見的聚合方式。用於對值求和的符號是一個希臘字母符號，稱為SigmaΣ。

均值
- 在均值計算的最後一步，我們引入 n 作為我們資料集中值的總數。我們可以將它放在求和符號的頂部，也可以在計算均值時作為分母。

描述性統計學 - 第二部分

離散程度測量

離散程度測量用於告訴我們資料之間的分散程度。常見的離散程度測量包括:
- 極差
- 四分位差 (IQR)
- 標準差
- 方差

直方圖

直方圖對於瞭解數值資料的不同方面是非常有用的。在後面的概念中，你將看到直方圖的廣泛使用，幫助你理解我們前面提到的關於數值變數的四個方面:
- 集中趨勢
- 離散程度
- 形狀
- 異常值

計算五數概括法中的值

五數概括法包括 5 個值：
- 最小值： 資料集中的最小值。
- Q1（第一四分位數）：排序後資料第 25% 處的值。
- Q2（中位數）：排序後資料第 50% 處的值。
- Q3（第三四分位數）：排序後資料第 75% 處的值。
- 最大值： 資料集中的最大值。

極差

極差又稱全距，是最大值和最小值之間的差值。

四分位差

四分位差為Q3 和 Q1 之間的差值。

標準差與方差

標準差是最常見的資料離散程度度量之一。它的定義為每個觀察值與均值之間的平均差異。
方差

方差是每個觀察值與均值之差的平方值的平均數。標準差是方差的平方根。因此，標準差的計算如下所示:

總結

方差用於比較兩組不同資料的離散程度。方差較高的一組資料相比方差較低的一組資料，其分佈更為廣泛。但是注意，有可能只有一個（或多個）異常值提高了方差，而大多數資料實際上比較集中。
在比較兩個資料集之間的離散程度時，每個資料集的單位必須相同。
當資料與貨幣或經濟有關時，方差（或標準差）更高則表示風險越高。
在實踐中，標準差比方差更常用，因為它使用原始資料集的單位。

形狀

從直方圖中，我們可以快速識別資料的形狀，這會影響我們在之前概念中學到的所有度量。我們學了資料的分佈通常為以下三種形狀之一：

1. 右偏態

2. 左偏態

3. 對稱分佈（通常是正態分佈）

形狀	均值與中位數	現實世界中的應用
對稱（正態）	均值等於中位數	身高、體重、誤差、降雨量
右偏態	均值大於中位數	血液中殘留的藥物量，呼叫中心的電話間隔時間，燈泡多久熄滅
左偏態	均值小於中位數	許多大學的成績百分比，死亡年齡，資產價格變動

異常值

我們瞭解到異常值是明顯偏離我們其餘資料點的點。這會極大地影響均值和標準差等度量，而對五數概括法中的第1四分位數、中位數、第2四分位數的影響較小。
識別異常值
- 有許多不同的技術用於識別異常值。這裡提供了有關此話題的一篇完整論文。

處理異常值常用技術

當出現異常值時，我們應該考慮以下幾點。

1. 注意到它們的存在以及對概括性度量的影響。

2. 如果有拼寫錯誤 —— 刪除或改正。

3. 瞭解它們為什麼會存在，以及對我們要回答的關於異常值的問題的影響。

4. 當有異常值時，報告五數概括法的值通常能比均值和標準差等度量更好地體現異常值的存在。

5. 報告時要小心。知道如何提出正確的問題。

異常值處理建議

繪製你的資料以確定是否有異常值。

2. 通過上述方法處理異常值。

3. 如果無異常值，且你的資料遵循正態分佈，使用均值和標準差來描述你的資料集，並報告資料為正態分佈。

描述統計與推論統計

描述統計是用來描述收集的資料。
推論統計在於使用我們收集的資料對更大的總體資料得出結論。
- 總體 —— 我們想要研究的整個群體。
- 引數 —— 描述總體的數值摘要
- 樣本 —— 總體的子集
- 統計量 —— 描述樣本的數值摘要

錄取案例分析——辛普森悖論

用不同方式對資料進行分組，會讓結論消失甚至相反

概率

擲硬幣的結果可以為 T 或 H ，分別作為硬幣的反面和正面。
然後基本規則為真：
1. P(H)=0.5
2. 1 - P(H) = P(not H)=0.5 其中 not H 是除了正面以外的事件。既然只會出現兩種可能的結果，我們得到 P(not H)=P(T)=0.5。
3. 通過多次擲硬幣，我們得到 n 次正面的概率為
  
  因為這些事件是獨立的。
我們從中得到下面兩個通用規則：
1. 任何事件的概率在 0 和 1 之間，其中包括 0 和 1。
2. 互補事件的概率為 1 減去某個事件的概率。其他一切可能事件的概率是 1 減去某個事件本身的概率。因此所有可能事件概率的總和等於 1。
3. 如果我們事件是獨立的，一系列可能事件的概率是這些事件的乘積。某個事件的概率 AND 下一個事件的概率 AND 下一個事件的概率，即這些事件概率的乘積。

二項分佈

二項分佈 幫助我們決定一系列獨立的 '擲硬幣等事件' 概率。

與二項分佈相關的概率質量函式具有以下形式：

其中 n 是事件數量， x 是 "成功" 的數量，p 是 "成功" 的概率。

我們現在可以使用這個分佈決定下列事件的概率：
- 擲硬幣 10 次出現 3 次正面的概率。
- 擲硬幣 10 次出現 8 次以上正面的概率。
- 擲硬幣 20 次不出現正面的概率。

條件概率

條件概率，通常事件並不像擲硬幣和骰子一樣是獨立的。實際上，某個事件的結果依賴於之前的事件。
例如，得到陽性檢驗測試結果的概率依賴於你是否具有某種特殊條件。如果具備條件，測試結果就是陽性的。我們通過以下方式用公式表示任意兩個事件的條件概率：

在這個例子中，我們得到下列內容：

其中 |代表 "鑑於"，∩ 代表 "和".

貝葉斯規則

P(A|B)已知B發生後A的條件概率（A的後驗概率）
P(A)是A的先驗概率（邊緣概率）
P(B|A)已知A發生後A的條件概率（B的後驗概率）
P(B)是B的先驗概率（邊緣概率）

模擬擲硬幣

#公平硬幣
import numpy as np
np.random.randit(0 , 2, size=1000)#0:預設下限；2：預設上限（但不包括上限本身），模擬擲硬幣1000次
#非公平硬幣
np.random.choice([0, 1], size=1000, p=[0.8, 0.2])#p:給定0， 1發生概率
np.random.choice(pop_data, size=(10000, 3))#從pop_data中進行3次取樣，迴圈10000次試驗

#注：若不給定P，則返回0， 1概率相等

正態分佈

import numpy as np
np.random.binomial(n, p, size)#n:事件數量（如一次抽10枚硬幣），P：概率， size:試驗次數

抽樣分佈與中心極限定理

抽樣分佈

抽樣分佈 是樣本的分佈。

抽樣分佈符號法

首先我們將 抽樣分佈 定義為 樣本量的分佈。
抽樣分佈以初始引數值為中心。
根據樣本容量大小，抽樣分佈降低了方差。具體說來，抽樣分佈的方差等於初始資料除以樣本容量的方差。這也同樣適用於樣本平均數方差！

引數與統計的符號法

抽樣分佈涉及的兩個重要數學定理包括：
1. 大數法則
2. 中心極限定理
大數法則 表示 隨著樣本容量增加，樣本平均數越來越接近總體平均數
下面是三種最常見的估計技巧：
中心極限定理 表示 樣本容量足夠大，平均數的抽樣分佈越接近正態分佈。

中心極限定理 實際上應用於這些常見的統計量中：
1. 樣本平均數 (x¯)
2. 樣本比例 (pp)
3. 樣本平均數的差異 (x¯1−x¯2)
4. 樣本比例的差異 (p1−p2)*
自助法 (bootstrap) 是放回抽樣。在 python 中使用 random.choice 實際上是自助法。無論選擇多少次，我們資料集中任何數字的概率保持不變。拋硬幣和擲骰子也是自展抽樣，因為在一個場景中滾動出 6，並不意味著後面出現 6 的概率降低。

總結

抽樣分佈
- 抽樣分佈 是一個統計量 (任何統計量) 的分佈。
  - 抽樣分佈涉及兩個重要數學定理：大數法則 和 中心極限定理。
  - 大數法則 表示隨著樣本容量增加，樣本平均數越來越接近總體平均數。一般來說，如果統計量 "較好地" 估計引數，它會接近較大樣本容量的引數。
  - 中心極限定理 表示樣本容量足夠大，樣本平均數會是正態分佈，但是在多個樣本平均數情況下，它才為真。
- 自展法
  - 自展法 是我們從群組中進行放回抽樣的技巧。
  - 我們可以使用自展法，模擬在這節課進行多次的建立抽樣分佈。
  - 通過自展法，計算我們統計量的重複數值，我們可以理解統計中的抽樣分佈。

置信區間

我們可以使用自助法和抽樣分佈，構建感興趣引數的置信區間。

通過找出對感興趣引數進行最好估計的統計量 (例如樣本平均數估算總體平均數或樣本平均數的差異估算總體平均數的差異)，我們可以很容易構建感興趣引數的置信區間。
你可以將置信區間理解為 可信度為 95% ，總體平均數落在你發現的範圍內 。注意根據構建置信區間的目的和每端刪除的百分比，百分比和引數都會發生變化。
現實意義應為實際顯著性——Practical significance；統計意義應為統計顯著性——statistical significance
使用置信區間和假設檢驗，你能夠在做決策時提供 統計顯著性。

然而，做決策時考慮 實際顯著性 同樣很重要。 實際顯著性 考慮到所處情況的其他因素，假設檢驗或置信空間的結果可能不會直接考慮到這種情況。空間、時間或金錢等約束條件對商業決定很重要。但是可能不會在統計測試中直接考慮這些因素。

置信區間的其他相關語言

瞭解樣本容量和置信度與最終分析後置信區間的關係，這是非常重要的。

假設你可以控制分析中其他所有條目：
1. 增加樣本容量，會降低置信區間的寬度。
2. 增加置信度 (如 95% 增加到 99%) 會增加置信區間的寬度。
你注意到可以計算：
1. 置信區間寬度，作為置信區間上限與下限的差異。
2. 誤差範圍 是置信區間寬度的一半，通過對樣本估計值的加減，達到置信區間的最終結果。

假設檢驗

設定假設檢驗

在收集資料前，H0 為真。
H0 通常表示沒有影響或對兩組影響相同。
H0 和 H1 是競爭性、非重疊的假設。
H1 可以證明為真。
H0 包含一個等號：= 、q≤ 或 q≥。
H1 包含非空值：q≠、>> 或 <<。

H0: 無辜的

H1: 有罪的

我們可以認為在收集資料之前，"無辜的" 為真。然後備擇假設必須是競爭性、非重疊的假設。因此備擇假設為一個人有罪。
- 我們想測試新頁面是否優於已有頁面，我們設定備擇假設。兩個指標需要遵守，一是零假設應當包含等於號，二是備擇假設應當包含我們希望為真的陳述。因此，它應為以下形式：
  
  H0:μ1≤μ2
  
  H1:μ1>μ2
  
  這裡，μ1 代表新頁面返回的總體平均數。同樣，μ2 代表原來頁面返回的總體平均數。

錯誤型別

I 類錯誤 包含以下特徵：
1. 你應該設定零假設和備擇假設，I 類錯誤是更嚴重的錯誤。
2. 它們由 α 符號表示。
3. I 類錯誤的定義是： (H0) 為真時，認為備擇假設 (H1) 為真。
4. I 類錯誤通常稱為誤報。
II類錯誤
1. 它們由 \betaβ 符號表示。
2. II 類錯誤的定義是：(H1) 為真時，認為零假設 (H0) 為真。
3. II 類錯誤通常稱為漏報。

常見的假設檢驗包括：

測試總體平均數 (單樣本 t 檢驗)。
測試均數差 (雙樣本 t 檢驗)
測試個體治療前後的差異 (配對 t 檢驗)
測試總體比例 (單樣本 z 檢驗)
測試總體比例的差異 (雙樣本 z 檢驗)

P值

p 值的定義是 如果零假設為真，觀察到統計量 (或支援備擇假設的更多極端) 的概率。

聯通錯誤和P值

p 值是零假設為真時，得到統計量或更極端數值的概率。
- 所以，p 值小，表示零假設不正確。相反，我們的統計量可能來自不同於零假設的分佈。
- p 值很大時，我們可以證明統計量很可能來自零假設。所以我們無法證明拒絕零假設。
- 通過對比 p 值和 I 類錯誤閾值 (\alphaα)，我們可以決定選擇哪個假設。
pval≤α⇒ 拒絕 H0

pval>α⇒ 不拒絕 H0

弗朗尼校正法

如果完成多個假設檢驗，你的 I 類錯誤更加嚴重。為了糾正這點，通常採用 邦弗朗尼 校正法。這種校正法 非常保守，但是假如 I 類最新錯誤率應為實際想得到的錯誤率除以完成檢驗的數量。
所以，如果你想在 20 個假設檢驗中把 I 類錯誤率維持在 1%，邦弗朗尼 校正率應為 0.01/20 = 0.0005。你應該使用這個新比率，對比每 20 個檢驗的 p 值，做出決定。

總結

無論是在零假設還是在備擇假設中，陳述時要避免出現接受這個單詞。我們並不是陳述某個假設為真。相反對於 I 類錯誤的閾值，你根據零假設中資料的相似性做出決定。
所以，可以出現在假設檢驗中的措辭包括：我們拒絕零假設 或者 我們不拒絕零假設。這有助於你最初零假設預設為真，並且如果沒有收集資料，在測試最後 "選擇" 零假設，是正確選擇。
如何設定假設檢驗。學習了零假設是收集資料前我們假設正確的內容，備擇假設是我們想要證明為真的內容。
I 類錯誤和 II 類錯誤。I 類錯誤是最嚴重的錯誤型別，這與零假設實際為真時選擇備擇假設相關。
p 值是零假設為真的情況下，觀察支援備擇假設的資料或更極端內容的概率。利用拔靴樣本得到的置信區間，可以做出與假設檢驗相同的決定 (在沒有混淆 p 值的情況下)。
如何根據 p 值做出決定。如果 p 值小於 I 類錯誤閾值，你可以拒絕零假設，選擇備擇假設。否則，不拒絕零假設。
樣本容量很大時，任何內容都具有統計意義 (最終拒絕所有零假設)，但這些聚過不具有現實意義。
完成多個假設檢驗時，錯誤會更加嚴重。因此使用一些校正法，確保 I 類錯誤率，非常重要。邦弗朗尼校正是簡單且保守的一種方法，你應該用 α 水平 (或 I 類錯誤閾值) 除以完成檢驗的數量。

迴歸

迴歸是常用的一種資料分析的方法，通過規定因變數和自變數來確定變數之間的因果關係，是一種建立迴歸模型，並根據實測資料來求解模型的各個引數，然後評價迴歸模型是否能夠很好的擬合實測資料。學習迴歸分析，可以幫助我們對資料做出合理的預測。

機器學習簡介

機器學習 通常分為監督和 非監督 學習，而你將在本課（接下來的課程還會涉及相關擴充套件知識）學到的迴歸則是監督機器學習的範例之一。
- 在監督機器學習中，你要做的是預測資料標籤。一般你可能會想預測交易是否欺詐、願意購買產品的顧客或某一地區的房價。
- 在非監督機器學習中，你要做的是收集同一類尚無標籤的資料。
在簡單線性迴歸中，我們要對兩個定量變數進行比較。
- 反應變數是你想預測的變數，解釋變數則是用於預測反應變數的變數，線上性迴歸中，通常我們會用散點圖來視覺化兩個變數的關係

散點圖

散點圖是比較兩個定量變數的常用視覺化手段。散點圖常用的彙總統計是 相關係數，該係數常以 r 來表示。
雖然還有其它幾種辦法來衡量兩個變數之間的相關性，但最常用的辦法是用皮爾遜相關係數，該係數能說明 線性關係 的：
1. 相關程度
2. 相關方向
斯皮爾曼相關性係數則不只衡量線性關係，可能更適用於關聯兩個變數的場合。

迴歸線決定因素

迴歸線通常由截距和斜率決定。
- 截距的定義為 當 x 變數為 0 時，反應變數的預測值。
- 斜率的定義為 x 變數每增加一個單位引起的反應變數的預測變化。
我們將線性迴歸的迴歸線記為：

y^=b0+b1x1
- 其中
  
  y^ 為迴歸線反應變數的預測值。
  
  b0 為截距。
  
  b1 為斜率。
  
  x1 為解釋變數。

擬合迴歸線

要找出最佳迴歸線，我們用的主要演算法叫做 最小二乘法，使用該演算法，我們可找出一條最小化

的迴歸線。

決定係數

*決定係數即相關係數的平方。

決定係數變數通常定義為模型中能以 x 變數解釋的反應變數的變化範圍。通常來說，決定係數越接近 1，模型就越擬合數據。

多元線性迴歸

統計學習簡介

虛擬變數

要往線性模型裡新增分類變數，就需要把分類變數轉變為 虛擬變數。
轉化後，你需要捨棄一個 虛擬列，才能得到滿秩矩陣。
如果你要用 0 、1 編碼來建立虛擬變數，你就得捨棄一個虛擬列，確保所得矩陣是滿秩的（這樣你從 python 裡得到的解才會是可靠的。）

邏輯迴歸

Project : A / B 測試

data_analysis_projects

注：學習筆記是在優達學城學習時，參考部分課程內容總結而成。

Project:分析 A / B 測試結果-專案心得：
專案描述：通過專案對網頁 A / B測試有了初步認識，對於網站利用A / B test來測試新網站是否推出等問題有了新的理解。用Python以及Pandas包、Numpy包、statsmodels包、matplotlib包等分析某電子商務網站執行 A / B 測試的結果，並給出該公司建議：是否應該使用新的頁面，保留舊的頁面，或者應該將測試時間延長，之後再做出決定。
專案收穫：熟悉A / B 測試流程，熟悉A / B流程中的統計方法，進一步學習瞭如何進行資料分析，加強了對理論聯絡實際的認知。

學習資源

Python 程式設計

Intro to Computer Science 學習if 語句，迴圈，函式，列表，集合和字典。
Programming Foundations with Python學習Python中的類，物件，模組。
NumPy and Pandas by Udacity 學習 NumPy 和 Pandas。
Python for Data Analysis 是最好的學習 NumPy, pandas, Matplotlib 的資源之一。它由這幾個庫的創始人 Wes McKinney 所撰寫，這是使用這些庫的詳盡指南。

資料分析學習筆記part_4

資料分析

Lesson 4 : 統計學

描述性統計學 - 第一部分

資料型別

定序和定類

連續和離散資料

總結

集中趨勢測量

眾數（mode）

隨機變數

符號表達式

描述性統計學 - 第二部分

離散程度測量

直方圖

計算五數概括法中的值

極差

四分位差

標準差與方差

總結

形狀

異常值

處理異常值常用技術

描述統計與推論統計

錄取案例分析——辛普森悖論

概率

二項分佈

條件概率

貝葉斯規則

正態分佈

抽樣分佈與中心極限定理

抽樣分佈

抽樣分佈符號法

引數與統計的符號法

總結

抽樣分佈

置信區間

置信區間的其他相關語言

假設檢驗

設定假設檢驗

錯誤型別

常見的假設檢驗包括：

P值

聯通錯誤和P值

弗朗尼校正法

總結

迴歸

機器學習簡介

散點圖

相關係數

迴歸線決定因素

擬合迴歸線

決定係數

多元線性迴歸

虛擬變數

邏輯迴歸

Project : A / B 測試

學習資源

Python 程式設計

相關推薦