1. 程式人生 > >資料分析介紹之六——單變數資料觀察之彙總統計和箱線圖

資料分析介紹之六——單變數資料觀察之彙總統計和箱線圖

你可能已經注意到,到目前為止我還沒有在所有關於平均數和中位數、標準差等簡單的主題發言,和百分位數。那是很有意的。這些彙總統計僅適用於某些假設,如果這些假設未實現,則是誤導性的,如果不是完全錯誤的話。我知道這些量是容易理解和容易計算的,但是如果有一條資訊我想讓你從這本書中拿走的話,那就是:某物是方便和受歡迎的事實是沒有理由跟風的。對於要使用的任何方法,請確保瞭解基本假設,並始終檢查它們是否滿足您所考慮的特定應用程式!

均值、中位數和相關彙總統計量僅適用於具有單峰分佈的單峰分佈的分佈。如果這個基本假設沒有實現,那麼基於簡單總結統計得出的結論將是錯誤的。更糟糕的是,沒有什麼能讓你明白他們錯了:這些數字看起來相當合理。(我們將看到這個問題的一個例子不久。)

一、彙總統計

如果一個分佈只有一個單峰,那麼問這個峰值的性質:它位於何處,它的寬度是什麼意義?我們還想知道是否有任何異常的分佈是對稱的,存在。

均值和標準差的位置和傳播兩種流行的措施。平均或平均是既熟悉和直觀的:
這裡寫圖片描述

標準差測量了平均值與平均值之間的距離:我們計算每個點和平均值之間的所有差異,然後計算所有這些差異的平均值。因為資料點可以高於或低於平均和我們想要的不正、負偏差相互抵消,總結個人的偏差的平方和取平均平方偏差。(第二個方程在實踐中非常有用,可以從第一個定義中找出均值之後)。

這裡寫圖片描述

以這種方式計算的S2量稱為方差,從理論觀點來看是更重要的量。但是,作為衡量分佈分佈的一個指標,我們最好使用它的平方根,也就是標準偏差。為什麼要取平方根呢?因為這兩種方法都對位置進行度量,而傳播的度量將具有相同的單位,也就是實際資料的單位。(如果我們的資料集包含一籃子貨物的價格,那麼方差將以“平方美元”計算,而標準偏差將以美元計算)。

對許多人來說(當然不是全部!)實踐中出現的資料集,可以期望對所有資料點三分之二落在區間[ M−S,M + S的所有點]和99%落在寬區間[M−3S,M + 3S ]。

均值和標準差容易計算,並且提供了一些良好的數學性質,只要資料是對稱的且不包含瘋狂離群值。不幸的是,許多資料集違反這些假設至少有一個。這是一個可能會遇到的一種故障一例。假設我們有10個專案1美元的成本,一項耗資20美元。平均專案價格是2.73美元,即使沒有任何物品的價格接近這個值。標準偏差甚至更糟:它出來的5.46美元,這意味著大多數專案都有一個價格在2.73美元−$ 5.46和$ 2.73 + 5.46美元。“預期範圍”現在包括負價格明顯荒謬的結果。請注意,資料集本身並不是特別病態:去雜貨店買一把糖塊和一瓶葡萄酒就可以了(當然,這酒不錯,但沒什麼可怕的)。

一組不同的彙總統計,更靈活和更強大的基於中位數和分位數和百分位數的概念。中位數通常被定義為資料集的值,使得資料集中的所有點的一半是較小的,而另一半是該值的一半。百分位數是這個概念的其他組分的綜合(第十百分位是10%點,所有的資料集都小於它的價值等)。百分位數是相似的,只是他們的考慮點的分數,不佔點(換句話說,第十分等於0.1分位數)。

儘管它很簡單,但百分位數的概念還是含糊不清的,所以我們需要更加努力,使它真正的具體化。作為發生問題的一個例子,考慮資料集{ 1, 2, 3 }。中位數是多少?不可能把這個資料集分成兩個相等的部分,每個部分恰好包含一半的分數。當我們處理任意的百分位數(而不是中位數)時,這個問題就變得更不舒服了。

網際網路標準制定的RFC 2330(“框架的IP效能指標”)給在CDF術語的定義是明確的和百分位數,實用,如下。PTH百分位數是最小值x,使得x的累積分佈函式大於或等於p/100。

百分位數:最小的x,p(x)的CDF≥P / 100

這個定義假定CDF歸一化為1,不到100。如果是標準的100,條件將CDF(x)≥P.

這一定義的中位數(IU,50百分位數)的資料集合{ 1,2,3}是因為CDF(2,1)= 0.33。…………………CDF(2)= 0.66。…………………CDF,和(3)= 1.0。的中位數的資料集{1,2}1現在是因為CDF(1)= 0.5,和CDF(2,2)= 1.0。

中位數的分佈位置的測量,我們可以使用百分制分佈寬度的測量。可能是最經常使用的數量這一目的是四分位數間距(IQR),這之間的距離是第七十五分和第二十五分。

當你忙的中位數和百分位數平均值和標準偏差?當你懷疑你的分佈是非對稱的或重要的異常。

如果一個分佈是對稱的和良好的行為,那麼平均和中位數將非常接近,在使用兩個幾乎沒有差別。一旦分佈變得偏斜,基礎假設作為分佈位置的量度的基本假設就不再滿足,所以使用中位數更好。(這就是為什麼平均工資通常是在官方刊物作為家庭收入中位數,而不是平均;後者將大幅扭曲的幾戶具有非常高的收入。)此外,你有異常的時候,背後的假設標準差作為衡量分佈的寬度被侵犯在這種情況下你應該贊成;IQR(回憶我們的購物籃前面的例子)。

如果中位數和百分位數是如此之大,那我們為什麼不經常使用它們?對均值和方差的偏好的很大一部分是歷史。前幾天在現成的計算能力,百分位數不實際的計算。記住,找到百分位數需要設定而找到的平均資料排序,只需要在任何命令所有的因素加起來。後者是一個O(n)的過程,但前者是O(n2)的過程,因為人類是非遞迴的快速排序,因此不能教需要採取更有效的排序演算法。另一個原因是,它是很難證明百分嚴格的定理,而均值和方差的數學很好,容易相處。

二、盒形和晶須圖

這裡寫圖片描述

有一個有趣的圖形方法來表示這些數量,連同潛在的離群值的資訊,稱為盒子和晶須情節,或框情節為短。圖2-15個箱形圖的所有元件。一個盒子包括:

  1. 一個標記或符號為中位數的分佈位置指示器
  2. 一個盒子,跨越四分位數範圍,作為衡量分佈的寬度
  3. 從中心盒延伸到上下相鄰值的一組晶須,作為分佈尾部的指示物(下一段中定義“相鄰值”)。
  4. 對於相鄰值範圍以外的所有值的單個符號,作為異常值的表示。

你可以看到一個箱形圖結合了大量的資訊在一個單一的圖。以前我們幾乎碰到過所有這些概念,除了上下兩個相鄰的值。而間距範圍是衡量為中央“體寬”的分佈,相鄰的值表示多遠它的尾巴達成一個可能的方式。上相鄰值是資料集中的最大值,該值小於中間四分位數範圍大於中位數的兩倍。換句話說:延長鬚向上正中有兩倍中央框的長度。現在將晶須修剪為實際發生在資料集中的最大值;這個值是上相鄰值。(類似施工對相鄰的低值。)

你可能會懷疑這個奇特的建築的原因。為什麼不簡單地把鬍鬚延伸到第五和第九十五的百分位,然後用它完成呢?這種方法的問題在於它不允許我們識別真正的離群值!離群值是指與分佈寬度相比,遠離中心的資料點。這些值可能存在,也可能不存在。在頂部和底部5%,另一方面,總是存在,即使是非常緊湊的分佈。為了識別離群值,我們不能簡單地看最極端的值,相反,我們必須比較它們與中心的距離和分佈的總寬度。這就是前面一段所描述的盒子和晶須圖。

在前面論證的邏輯是非常重要的(不僅在這方面的應用更普遍,因此我要重申)的步驟:首先計算分佈的寬度的測量,然後用這個寬度識別離群點,遠離中心,在那裡(這是關鍵步)“遠”是在分佈的寬度的測量單位。我們不強加一個任意的距離以外,我們也不只是簡單的標籤最極端的X %的分佈異常相反,我們確定的分佈寬度(為範圍,分“一般”掉)然後用它來識別離群點,偏離這個範圍。這裡的重要的見解是,分佈本身決定了一個典型的規模,它提供了一個自然單位,以衡量分佈的其他屬性。使用系統的一些典型屬性來描述系統其他部分的想法稍後會再次出現(見第8章)。

箱線圖結合許多不同的分配到一個單一的措施,緊圖。一個方塊圖可以讓我們看到分佈是對稱的還是不存在的,以及權重是如何分佈在中心峰和尾部之間的。最後,離群值(如果有的話)不下降,但明確表示。

當用一個分佈來比較多個分佈時,框圖是最好的,而編制和管理圖表的開銷(與引用數字相比)往往顯得不合理。這裡有一個例子,比較不同的資料集對彼此的。

這裡寫圖片描述

假設我們有一個包含121個玻璃樣品折射率的資料集。*資料集由玻璃型別分解:70個視窗玻璃樣品,29個前照燈,13個不同型別的容器,9個餐具。圖2-14、2-15個表示相同的資料,前者為核密度估計,後者為箱形圖。

框圖強調資料集的總體結構,並根據它們的位置和寬度方便地比較資料集。同時,也失去了太多的資訊。KDE提供了更詳細的資料檢視,特別是顯示了分佈函式中多個峰值的出現,但這使得對資料集進行快速排序和分類變得更加困難。根據您的需要,一種或另一種技術可能是最好的在任何給定的時間。

這裡有一些關於框圖的附加說明。

  1. 我在這裡描述的一個盒子圖的具體方法特別有用,但遠非通用。特別是,相鄰的值的具體的定義往往是不正確的理解。每當你發現自己在看一個框的情節,總是問到底是什麼顯示,每當你準備一個,一定要包含一個解釋。
  2. 這裡描述的盒形圖可以進行修改和增強。例如,中央框的寬度(即,與晶須正交的方向)可以用來指示基礎資料集的大小:包含更多的點,更寬的框。另一種可能性是放棄矩形盒子的形狀完全使用盒子的地方寬度在每個位置-這給我們帶來了幾乎全部的圈KDEs顯示點的密度。