如何識破統計資料中的那些小把戲?
圖片來源:視覺中國
文|鄰章
“世界上有三種謊言:謊言、彌天大謊和統計資料!”——美國統計專家達萊爾·哈夫在其傳世之作《統計資料會說謊》中如是說。
對於統計資料,我們似乎對其有著某種天然的信任感,認為其代表著客觀公正,資料不會說謊乃至成為了我們的潛意識,在許多時候成為了我們評判事物好壞與否的標準。
但現實的悖論在於,許多聰明的人或機構就是抓住了我們對於資料的這種天然的信任感做起了文章,通過各種統計手段得出各種或好或壞的各種資料,進而影響普通消費者的判斷。
的確,在日常生活中,我們時常也能看到,在那些競爭激烈的行業,不同的統計機構往往會在同一時間給出相互打架的資料結論,造就同一行業中同時出現多個第一的鬧劇,這在過往的外賣、移動支付、共享單車、智慧手機等市場中都已是屢見不鮮。
但常識告訴我們,同一行業中同時出現兩個第一,是概率極小乃至是不可能事件。
為何這種統計鬧劇屢見不鮮?
其中原因多種多樣,往小了說有統計口徑差異,基數偏差、資料粉飾、誇大等等,而往大了說那麼就有可能是故意為之的資料造假,以求達到不可告人的目的。誠如政治家格羅夫納(C.H.Grosvenor)所言:“資料本身不會說謊,但說謊者需要資料。”
所以對於我們而言,在以統計資料作為決策依據時,需要擦亮自己的眼睛,預防辨別出統計資料中時常出現的一些小把戲,選擇具備真正有意義的統計資料來做參考。
一、採用不同統計口徑的統計資料
不同統計口徑造就的資料差異,往往在市場份額、銷量這類統計中時常出現,表現得頗為明顯。諸如在過往的國產廠商在國內智慧手機市場銷量誰是第一的競爭中,甲乙兩家廠商都宣稱自己是當年的市場銷量第一,並且拉出了不同的市場調研機構給出的結論來站臺背書。
的確,從不同統計機構給出的資料來說,這兩家都做到了各自的第一。但問題的有趣之處在於甲乙兩家廠商拉出來給自站臺背書的統計機構所採用的統計口徑卻不盡相同,有的採用的是Sell-in(生產商賣給零售商的商品數量)的統計口徑,有的採用的則是Sell-out(零售商賣給顧客的商品數量)的統計口徑。
而從實際意義或者價值來說,或許把東西銷售到使用者手中的統計會更具價值。而這種由於統計口徑造成的結果差異或者是資料打架現象,不僅在智慧手機市場的銷量統計中存在,在其他許多行業也同樣存在。
二、忽略規模基數的統計資料
在日常生活中我們更為容易遇到、也更容易誤導我們的一種統計小把戲是忽略規模基數差異的統計資料。
諸如在許多行業中,使用者會把平臺的顧客投訴量作為一個重要考察指標,也或正因如此,一些機構也做起了聚合使用者各類投訴而後釋出不同行業使用者投訴排行榜的事情。但有時候觀察這些機構釋出的這類投訴資料排行榜,我們卻能發現他們釋出的這類投訴排行榜其實對於使用者的決策而言,並不能帶來有任何實際意義的參考價值,反而有可能會把使用者帶進坑裡。原因在於這種投訴量排行榜忽略了一個統計中最為基本的要素——使用者基數差異。
顯而易見的一個道理是:不同行業不同品牌、平臺,其使用者規模各不相同,有的平臺使用者規模可能會很大,而有的平臺使用者規模則很小。但在眾口難調的現實下,顯然使用者規模更大的平臺,往往就會在這類數量的統計中更為吃虧。
但從實際的整體概率來說,我們卻能發現使用者規模高的平臺,其服務水準、使用者滿意度、平臺安全性可能反而會更高。所以從這個層面來說,如果要真的去考量一個品牌、平臺的服務水平、產品質量, 其實更為合理負責的統計方式不是去統計他的使用者投訴量,而應該是計算使用者的投訴率。
諸如在去年21CN聚投訴釋出的2017年十大行業“金蝦獎”這份榜單中,我們就能明顯發現採用使用者投訴量的統計方式所帶來的使用者誤導。在這份榜單中,淘寶、天貓、微信支付、支付寶、蘋果、海信、玖富等不同行業的領導品牌均登上了這份黑榜。但這份忽略平臺使用者規模基數差異的榜單,其實並不具備任何說服力。
以淘寶、天貓的資料為例,我們看到在聚投訴平臺這份“金蝦獎”榜單中,使用者投訴量是5707件。這個資料初看之下給人傳遞的感覺是投訴量的確還是蠻多的,但若是考慮到淘寶天貓累計超6億的使用者規模,那麼以此投訴量計算投訴率,可以得出實際上淘寶天貓的使用者投訴率僅為0.00000951%。而不僅是淘寶天貓如此,在當時這份榜單上的許多品牌都是如此。
而事實上,這類忽略使用者規模而只談資料的統計案例還有很多。諸如在科技網際網路行業中大家最為關注的某些增長率上,往往就會如此。
還是以平臺使用者最為熟悉的智慧手機產業為例,我們時常看到,蘋果三星的銷量增長僅為百分之幾,與動輒銷量增長達到20%乃至30%的國產相比,自然是自慚形穢,許多廠商也會以自己的增速超過蘋果、三星而大加宣傳。
雖然他們的銷量增速放緩是客觀存在,但在描述這在客觀存在時,我們更需要注意的是要以他們現有的銷量基數大小為參考,而若忽略體量談增速,其實是非常不客觀的,畢竟從現實來說,體量越小其實就越能取得高增速。
當你銷量為幾百萬臺時,取得一個30%的銷量增速可能會很容易,而若是當達到了諸如三星的每個季度7000—8000萬臺左右的銷量時,要30%的銷量增速就會極為困難了。
三、圖表擴大化造就視覺誤差
在統計口徑、使用者規模存在差異的統計帶給使用者困擾之外,其實還有另外一種統計手法容易給使用者帶來困擾與誤導——圖表擴大化造就的視覺誤差。
其原理在於:相對於文字而言,人類對於視覺資訊有著更快的接受速度也更容易產生深度記憶。而許多“聰明”的公司,就做起了圖表的視覺誤差的文章,這在視覺誤差在對比圖中尤為常見。
諸如在今年華為GUP Turbo這項“嚇人技術”釋出的時候,其在與競品們比較遊戲時長時,我們就能看到在華為給出的這張對比圖中,雖然榮耀Play在遊戲時長上比iPhone X只多了半個小時,但是在上面這張對比圖中,我們一眼看去留下的印象是:榮耀Play的遊戲時長超越iPhone X一倍不止。
如果僅給iPhone X標註4.0小時而不給榮耀Play標註4.5小時,把這在圖放出去讓使用者猜測榮耀Play的遊戲時長,資訊我們心中想到的資料絕不會是4.5小時,而會是擁有至少十個小時的遊戲時長。
寫在最後:
毋庸置疑,統計資料對於我們的各類決策,有著重要的參考意義,但他的前提條件是我們尋找參照的統計資料要有意義,不能存在一些統計汙染在其中。但在現實中,許多統計機構卻在真實與謊言的灰色地帶上走鋼絲,使得諸多統計資料開始變得不僅不具備參考意義,反而會把使用者帶進溝裡。
在此,需要的是我們擦亮眼睛,學會識破統計資料中的一些常見小把戲。當然,更需要注意的是,上述幾種只是最為常見與簡單的統計小把戲,在更低的統計中,還有更多高深的把戲,這需要我們以更為專業的知識去識破他們。(本文首發鈦媒體)