1. 程式人生 > >《大資料時代》摘抄,第一部分大資料時代的思維變革(2、不是精確性,而是混雜性)

《大資料時代》摘抄,第一部分大資料時代的思維變革(2、不是精確性,而是混雜性)

執迷於精確性是資訊缺乏時代和模擬時代的產物。只有5%的資料是結構化且能適用於傳統資料庫的。如果不接受混亂,剩下95%的非結構化資料都無法被利用,只有接受不精確性,我們才能開啟一扇從未涉足的世界的窗戶。

允許不精確——資料量的大幅增加會造成結果的不準確,與此同時,一些錯誤的資料也會混進資料庫。然而,重點是我們通過努力避免這些問題,學會接受它們。混雜性一方面來自錯誤的資料(測量的不準確),也來自格式的不一致(如不同的日期格式、同義詞)。為了擴大規模,我們接受適量錯誤的存在,有時得到2加2約等於3.9的結果,也很不錯。為了瞭解大致的發展趨勢,我們願意對精確性做出一些讓步。

“大資料”通常用概率說話,而不是板著“確鑿無疑”的面孔。當我們試著擴大資料規模的時候,要學會擁抱混亂。

大資料的簡單演算法比小資料的複雜演算法更有效——簡單演算法+大資料

紛繁的資料越多越好,如今,我們已經生活在資訊時代。我們掌握的資料庫越來越全面,它不再只包括我們手頭現象的一點點可憐的資料,而是包括了與這些現象相關的大量甚至全部資料。我們不再需要那麼擔心某個資料點對整套分析的不利影響。我們要做的就是要接受這些紛繁的資料並從中受益,而不是以高昂的代價消除所有的不確定性。

大資料不僅讓我們不再期待精確性,也讓我們無法實現精確性。錯誤並不是大資料固有的特性,而是一個亟需我們去處理的現實問題,並且有可能長期存在。

要想獲得大規模資料帶來的好處,混亂應該是標準途徑,而不是竭力避免。

今年大轉變是非關係資料庫的出現,它不需要預先設定記錄結構,允許處理超大量五花八門的資料。因為包容了結構多樣性,這些資料庫設計就要求更多的處理和儲存資源。

據估計,只有5%的數字資料是結構化的且能適用於傳統資料庫。如果不接受混亂,剩下97%的非結構化資料都無法被利用,比如網頁和視訊資源。通過接受不精確性,我們打開了一個未涉足的世界的視窗。

社會將兩個折中的想法不知不覺地滲入了我們的處事方法中,我們甚至不再把這當成一種折中,而是把它當成了事物的自然狀態。第一個折中是,我們預設自己不能使用更多地資料,所以我們就不會去使用更多的資料。但是,資料量的限制正在逐漸消失,而且通過無限接近“樣本=總體”的方式來處理資料,我們會獲得極大的好處。第二個折中出現在資料的質量上。在校資料時代,追求精確度是合理的。因為當時我們收集的資料很少,所以需要越精確越好。如今這依然適用於一些事情。但是對於其他事情,快速獲得一個大概的輪廓和發展脈絡,就要比嚴格的精確性要重要得多。

大資料要求我們有所改變,我們必須能夠接受混雜和不確定性。精確性似乎一直是我們生活的支撐,就像我們常說的“釘是釘,鉚是鉚”,但認為每個問題只有一個答案的想法是站不住腳的,不管我們承不承認。一旦我們承認了這個事實甚至擁護這個事實的話,我們離真相就又近了一步。