幾個統計學的概念

阿新 • • 發佈：2018-07-21

規範化歸一化變量概念 ron 高斯 mes hat end

統計基礎概念

在多元變量分析中，我們考慮所有的 $d$ 個數值型屬性 $X_1, \cdots, X_d$。整個數據集是一個 $n \times d$ 的矩陣，即（數據矩陣）：

\[ D = \left[ \begin{array}{c|llll} & X_1 & X_2 & \cdots & X_d \ \hline x_1^T & x_{11} & x_{12} & \cdots & x_{1d} \ x_2^T & x_{21} & x_{22} & \cdots & x_{2d} \ \vdots & \vdots & \vdots & \ddots & \vdots \ x_n^T & x_{n1} & x_{n2} & \cdots & x_{nd} \ \end{array} \right] \]

以上數據:

按照行來看，可以看作 $d$ 維屬性空間中的 $n$ 個點或者向量
$
x_i = (x_{i_1}, \cdots, x_{id})^T \in {\Bbb R}^d
$
按照列來看，可以看作 $n$ 維屬性空間中的 $d$ 個點或者向量
$
X_j = (X_{j_1}, \cdots, X_{jd})^T \in {\Bbb R}^n
$

從概率的角度，$d$ 個屬性可以建模為一個向量隨機變量 $X = (X_1, X_2, \cdots, X_d)^T$，而點 $x_i$ 可以看成從 $X$ 中得到的隨機樣本，它們和 $X$ 是獨立同分布的。

均值

\[ \begin{align} \mu = E[X] = \left[ \begin{array}{c} E[X_1] \\ E[X_2] \\ \vdots \\ E[X_d] \end{array} \right] = \left[ \begin{array}{c} \mu_1 \\ \mu_2 \\ \vdots \\ \mu_d \end{array} \right] \tag{均值向量} \\hat{\mu} = \frac{1}{n} \sum_{i=1}^{n}x_i \tag {樣本均值} \end{align} \]

協方差矩陣

\[ \Sigma = E[(X - \mu)(X - \mu)^T] \]

居中數據矩陣

\[ Z = D - 1 \cdot \hat{\mu}^T \]

樣本協方差矩陣

\[ \hat{\Sigma} = E[(X - \hat{\mu})(X - \hat{\mu})^T] = \frac{1}{n - 1}\; (Z^TZ) \]

總方差

\[ var(D) = tr(\Sigma) \]

數據規範化

極差歸一化

極差：$\hat{r} = \max\{X_i\} - \min\{X_i\}$

$X_i^{‘} = \frac{X_i - \min\{X_i\}}{\hat{r}}$

標準差歸一化

\[ \hat{X} = \frac{X - \hat{\mu}}{\hat{\sigma}} \]

高斯誤差函數

\[ erf(x) = \frac{2}{\sqrt{\pi}}\;\int_0^xe^{-t^2}{\rm d}t \]

應用

一元正態分布

隨機變量 $X$ 服從正態分布，均值為 $\mu$，方差為 $\sigma^2$，其概率密度函數可以描述為：

\[ f(x\,|\,\mu, \sigma^2) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left\{-\frac{(x - \mu)^2}{2 \sigma^2}\right\} \]

給定區間 $[a, b]$，在該區間上的正態分布的概率質量為：

\[ P(a \leq x \leq b) = \int_a^b f(x\,|\,\mu, \sigma^2) {\rm d} x \]

我們大都對於區間 $[\mu - k \sigma, \mu + k \sigma]$ 比較感興趣：

\[ P(\mu - k \sigma \leq x \leq \mu + k \sigma) = \int_{\mu - k \sigma}^{\mu + k \sigma} f(x\,|\,\mu, \sigma^2) {\rm d} x \]

我們令 $z = \frac{x - \mu}{\sigma}$，則上式可以化為：

\[ \begin{align} P(- k \leq z \leq k) &= \frac{1}{\sqrt{2\pi}} \int_{- k}^{k} e^ {- \frac{1}{2}{z^2}} {\rm d}z \ &= \frac{2}{\sqrt{2\pi}} \int_{0}^{k} e^ {- \frac{1}{2}{z^2}} {\rm d}z \ &= \frac{2}{\sqrt{\pi}} \int_{0}^{\frac{k}{\sqrt{2}}} e^{- t^2} {\rm d}t \ &= erf(\frac{k}{\sqrt{2}}) \end{align} \]

多元正態分布

若 $X = (X_1, X_2, \cdots, X_d)$ 服從多元正態分布，均值為 $\bf \mu$，協方差矩陣為 $\bf \Sigma$，則其聯合多元概率密度函數為：

\[ f(x\,|\,\mu, \Sigma) = \frac{1}{\sqrt{2\pi}^d {\sqrt{|{\Sigma}|}}} \exp\left\{-\frac{(x - \mu)^T{\Sigma}^{-1}(x - \mu)}{2} \right\} \]

馬氏距離

\[ (x - \mu)^T{\Sigma}^{-1}(x - \mu) \]

幾個統計學的概念

規範化歸一化變量概念 ron 高斯 mes hat end 統計基礎概念在多元變量分析中，我們考慮所有的 $d$ 個數值型屬性 $X_1, \cdots, X_d$。整個數據集是一個 $n \times d$ 的矩陣，即（數據矩陣）： \[ D = \

幾個統計學的概念

統計基礎概念

均值

協方差矩陣

居中數據矩陣

樣本協方差矩陣

總方差

數據規範化

極差歸一化

標準差歸一化

高斯誤差函數

應用

一元正態分布

多元正態分布

馬氏距離

幾個統計學的概念

WebLogic(12C)——幾個基本概念

OSPF中幾個小概念

計量經濟與時間序列_時間序列分析的幾個基本概念(自相關函數,偏自相關函數等)

線程的幾個主要概念----線程間通信；線程死鎖；線程控制：掛起、停止和恢復(線程同步的5種方式)

MyBatis的幾個重要概念和工作流程

關於“知識共享”的幾個基本概念

Testing - 自動化測試的幾個基礎概念

kafka中的幾個基本概念

筆記-git中的幾個基本概念

幾個基本概念

幾個資料庫概念及關係型資料庫和非關係型資料庫的優缺點

併發程式設計的幾個基本概念

《深入理解計算機系統》筆記：幾個重要概念

App效能測試中的幾個重要概念

機器學習（二）：機器學習中的幾個基本概念

路由選擇協議的幾個基本概念

Spark的幾個基本概念：Driver和Job，Stage

關於ORACLE資料庫名以及資料例項名等幾個重要概念

詳解幾個基本概念“標準差&標準誤差，方差&均方差”

幾個統計學的概念

統計基礎概念

均值

協方差矩陣

居中數據矩陣

樣本協方差矩陣

總方差

數據規範化

極差歸一化

標準差歸一化

高斯誤差函數

應用

一元正態分布

多元正態分布

馬氏距離

相關推薦