1. 程式人生 > >R 語言中的 箱線圖介紹 boxplot

R 語言中的 箱線圖介紹 boxplot

箱線圖(Boxplot)也稱箱須圖(Box-whisker Plot),是利用資料中的五個統計量:最小值、第一四分位數、中位數、第三四分位數與最大值來描述資料的一種方法。它也可以粗略地看出資料是否具有有對稱性,分佈的離散程度等資訊;特別適用於對幾個樣本的比較。

注:四分位數(Quartile),即統計學中,把所有數值由小到大排列並分成四等份,處於三個分割點位置的數值就是四分位數。

        第一四分位數 (Q1),又稱“較小四分位數”,等於該樣本中所有數值由小到大排列後第25%的數字。         第二四分位數 (Q2),又稱“中位數”,等於該樣本中所有數值由小到大排列後第50%的數字。         第三四分位數 (Q3),又稱“較大四分位數”,等於該樣本中所有數值由小到大排列後第75%的數字。         第三四分位數與第一四分位數的差距又稱
四分位距
(InterQuartile Range,IQR)。

A boxplot is a way of summarizing a set of data measured on an interval scale. It is often used in exploratory data analysis. It is a type of graph which is used to show the shape of the distribution, its central value, and variability. The picture produced consists of the most extreme values in the data set (maximum and minimum values), the lower and upper quartiles, and the median.

可以通過箱線圖的繪製過程來了解箱線圖的意義:

  1. 繪製數軸
  2. 計算上四分位數(Q3),中位數,下四分位數(Q1)。
  3. 計算上四分位數和下四分位數之間的差值(Q3-Q1),即四分位數差(IQR,interquartile range)。
  4. 繪製箱線圖的矩形,上限為上四分位數,下限為下四分位數。在矩形內部中位數的位置畫一條橫線(中位線)。
  5. 在Q3+1.5IQR和Q1-1.5IQR處畫兩條與中位線一樣的線段,這兩條線段為異常值截斷點,稱為內限;在Q3+3IQR和Q1-3IQR處畫兩條線段,稱為外限。處於內限以外位置的點所表示的資料都是異常值(outliers),其中在內限與外限之間的異常值為溫和的異常值(mild outliers),在外限以外的為極端的異常值(extreme outliers)。(注意:統計軟體繪製的箱線圖一般都沒有標出內限和外限。)
  6. 在非異常值的資料中,最靠近上邊緣和下邊緣(即內限)的兩個數值處,畫橫線,作為箱線圖的觸鬚。
  7. 從矩形的兩端向外各畫一條線段直到不是異常值的最遠點(即上一步的觸鬚),表示該批資料正常值的分佈區間。
  8. 溫和的異常值(即處於1.5倍-3倍四分位數差之間的異常值)用空心點表示;極端的異常值(即超出四分位數差3倍距離的異常值)用實心點(也可以用星號*)表示。