1. 程式人生 > >輕鬆理解箱形圖

輕鬆理解箱形圖

箱形圖,也叫盒須圖,盒式圖,boxplot。有95%的把握猜中你現在已經不太確定,這圖中有幾條線?每條線代表什麼意思?中間的那條線代表的究竟是算數平均數還是中位數,還是眾數?

再問的深點,箱形圖存在的意義為何?之於資料分析的實踐意義在哪裡?

接下來,帶你從概念開始,一步步剖析箱形圖以及背後的故事。

1.什麼是箱形圖?

箱圖的發明者John Tukey。Tukey先生1915年出生於美國麻省的新貝德福德。他22歲的時候在布朗大學獲得了碩士學位,之後又在普林斯頓大學拿到了化學博士。有趣的是,他並沒有直接開始讓他青史留名的統計學工作,而是在二戰期間進入了火控研究室,在那裡,大量武器相關的研究最終都轉而需要先解決統計學問題。從此,Tukey改變了自己的人生方向,一代統計學大師即將出現。

箱形圖最大的優點就是不受異常值的影響,可以以一種相對穩定的方式描述資料的離散分佈情況。默唸兩遍,箱形圖不受異常值的影響,這很重要。

為了更形象的說明,我們先畫個圖,看圖說話。使用工具RStudio,假設有資料集合num = c(1,6,2,7,4,2,3,3,8,25,30),直接通過boxplot(num)畫圖,如下:

首先從外觀上感知這是個什麼東東。奧,中間是個矩形塊,可以把它想象成一個盒子。盒子裡面有一條線,外面有兩個形似T的東西。哦,最外面還有兩個空心的圓圈,這個可不是所有的箱形圖都會有。接下來一一解釋這些玩意兒。

2.箱形圖五要素

有一件重要的點,要交代一下,不然可能要被大多數人給忽略掉了。畫箱形圖,首先要把資料從大到小排序,沒錯,是從大到小。
(1)中位數
中位數,即二分之一分位數。所以計算的方法就是將一組資料(此處中位數,特別指是從大到小排列的有序序列,平時求中位數並不要求是有序序列)平均分成兩份,取中間這個數。

如果原始序列長度n是奇數,那麼中位數所在位置是(n+1)/2;如果原始序列長度n是偶數,那麼中位數所在位置是n/2,n/2+1,中位數的值等於這兩個位置的數的算數平均數。

(2)上四分位數Q1
強調一下,四分位數的求法,是將序列平均分成四份。具體的計算目前有(n+1)/4與(n-1)/4兩種,一般使用(n+1)/4。

好吧,這部分我已經說不太清楚了,需要藉助R語言這個強大的工具來舉例說明。舉個例子,有有序序列一個test = c(1,2,3,4,5,6,7,8),通過summary(test)來獲取test這個序列的中位數,上四分位數,下四分位數以及算數平均值。

這個Q1=2.75是怎麼計算出來的呢?首先序列長度n=8,(1+n)/4=2.25,這是什麼意思呢?說明上四分位數在第2.25個位置數,實際上這個數是不存在的,但我們知道這個位置是在第2個數與第3個數之間的。

只能假想從第2個數到第3個數之間是均勻分佈的。那麼第2.25個數就是第二個數*0.25+第三個數*0.75,即2*0.25+3*0.75=0.5+2.25=2.75。

(3)下四分位數Q3
這個下四分位數所在位置計算方法同上,只不過是(1+n)/4*3=6.75,這個是個介於第六個位置與第七個位置之間的地方。對應的具體的值是0.75*6+0.25*7=6.25。

(4)內限
目前我們文章中看到的這兩個T形的盒須就是內限。上面的T形線段所延伸到的極遠處,是Q3+1.5IQR(其中,IQR=Q3-Q1)與剔除異常值後的極大值兩者取最小,下面的T形線段所延伸到的極遠處,是Q1-1.5IQR與剔除異常值後的極小值兩者取最大。

還是以開篇使用的栗子,來說明。
IQR=Q3-Q1=7.5-2.5=5
上內限=Q3+1.5*IQR=7.5+1.5*5=15,與剔除兩個異常址30,25後的極大值8,兩者取最小值,所以上內限就是8
下內限=Q1-1.5*IQR=2.5-1.5*5=-5,與剔除兩個異常址30,25後的極小值1,兩者取最大值,所以下內限就是1

(5)外限
外限與內限的計算方法相同,唯一的區別就在與:上面的T形線段所延伸到的極遠處,是Q3+3IQR(其中,IQR=Q3-Q1)與剔除異常值後的極大值兩者取最小,下面的T形線段所延伸到的極遠處,是Q1-3IQR與剔除異常值後的極小值兩者取最大。

3.箱形圖之與異常址清洗

箱形圖最重要的用途就是識別異常值。資料清洗中,作用很大。