1. 程式人生 > >視覺化學習筆記7:誠實設計

視覺化學習筆記7:誠實設計

請勿歪曲資料

你有責任確保以最真實的方式展示資料。人們的確會在視覺化圖表中撒謊,欺騙他人。最常見的方法是以各種方式歪曲條形圖。

下面是福克斯新聞在 2012 年展示的一個圖表示例(他們總是犯這種錯誤)。

如何通過條形圖撒謊。

上圖想要顯示變化的稅率。看起來像很大的變化(5 倍增長)。但是,如果再去看實際數字,就會發現僅從 35% 增長到了 39.6%,只有 13% 的增長( (百分之 4.6 的增長點)。人們容易認為條形圖的基線是 0,但是此圖的基線為 34%,超出了我們的設想範圍。此圖的建立者可能想故意欺騙觀看者,使他們認為稅率出現了很大的變化,實際上並非如此。

如果要重新建立該圖表,準確地顯示各個值,那麼變化幾乎可以忽略。

畸變因子

這就要提到 Edward Tufte 在《Visual Display》中提出的一個概念,即畸變因子。沒錯,又是他,強烈建議你閱讀這本圖書。畸變因子會將圖表的效果大小與資料的效果大小進行對比。效果是指要對比的差異。例如,在稅率圖表中對比的是直條的高度,所以效果是右側直條比左側直條高多少。

要計算畸變因子,需要將圖表的效果大小與資料的效果大小相除。我將使用下圖(也是很好的圖表垃圾反面示例)作為示例進行講解。

來自 Tufte 的《Visual Display of Quantitative Information》(《洛杉磯時報》,1979 年 8 月 5 日)中的示例)

實際上不好確定醫生圖片的哪個方面表示資料。高度?面積?實際上,醫生高度與百分比成比例,但是我們實際上將視覺面積看做資料編碼。因為我們對比的是醫生圖片的面積,我將使用這一面積來計算圖形效果。在最大的醫生圖片周圍畫個長方形,高 437 畫素,寬 181 畫素,所以面積約為 79000 平方畫素。中間的醫生圖片面積約為 30500 平方畫素,小的醫生圖片的面積約為 16500 平方畫素。

我們算算 1964 和 1990 之間的對比畸變因子。視覺效果是 1964 年的醫生大了多少。即 (79000 - 16500)/16500 = 3.79,所以醫生大小之間的差別是小醫生圖片大小的 379%。實際資料的效果是 (27-12)/12 = 1.25,或者資料差別是比 1990 年資料點大 125%。除以這些值,畸變因子是 3.79/1.25 = 3.03。

練習題

上面的福克斯新聞條形圖的畸變因子是多少?以下是一些實用資料:小的直條高 27 畫素,大的直條高 146 畫素。

  • 4.57

  • 33.54

  • 0.030

  • 1

折線圖和不規則的區間

條形圖並非是唯一可以被歪曲的常見圖表。經常你將看到折線圖以不規則區間連線線條。例如,下圖跳過了 1999 年和 2002 年,但是圖形元素按照正常區間放置,歪曲了資料。

具有不規則區間的折線圖(Mike Alexander, Excel 2007 Dashboard and Reports for Dummies)

折線圖顯示了資料點之間的變化速率。如果區間像上圖一樣不規則,變化就過於強調了。

1998 年和 2000 年之間的變化似乎很大,但是如果在二者之間填上 1999 年的資料,並適當增加空間,增加幅度就可能和其他年份一樣了。2001 年和 2003 年之間的變化比其他區間的要小,但是實際上是兩年間隔,而不是一年,隨著時間推移的變化幅度比實際的看起來要大。

這篇文章(作者:Stephen Few)很好地解釋瞭如何使用具有不規則區間的折線圖。