1. 程式人生 > >大資料:一場改變我們如何生活、工作和思考的革命(讓資料說話)

大資料:一場改變我們如何生活、工作和思考的革命(讓資料說話)

讓資料說話

資訊社會的果實很容易被看到,例如每個口袋裡的手機,每個包裡的電腦和在各處辦公室中的大的後臺系統。但不容易看到的是資訊自己。電腦進入主流社會半個世紀以來,資料開始積累到一個點,一些新的特殊的事情即將發生。不僅僅是資訊爆炸,而且資訊增長的速度更快。規模的改變導致狀態的改變。數量的改變導致質量的改變。象空間和基因學科,在2000年首先經歷了這個爆炸,創造了“大資料”這個詞。這個概念現在遷移到人類的所有領域裡。

         大資料沒有一個非常嚴格的定義,初始的意義是資訊增長太大了,已經不再適合放到計算機記憶體當中進行處理了,所以工程師需要開發更好的工具來分析資料。這是新的處理技術的來源,例如谷歌的MapReduce和同等開園的Hadoop,它來自雅虎。這能夠讓人們管理比以前更大量的資料,重要的是這些資料不需要儲存到表格裡或經典的資料表格裡。其它資料處理技術分配資料到不容易改變的層次裡,以往的同質化也是在水平的。同時,因為網際網路公司能夠收集到巨量的資料並且有財務方面的激勵,他們變成了大資料處理的領導者,代替了線下有幾十年經驗的公司。

         今天去考慮問題的方法和我們在這本書裡做的方法是這樣的,我們能以大規模的方式去做大資料相關的事情,不能以小規模的方式去做,去抽取新的觀點或者創造新的價值,在方法上改變市場,組織和市民與政府的關係,其它更多的東西。

         但這僅僅是開始,大資料時代挑戰我們的生存方式和與世界互動的方式。更驚人的是,社會將流出一些妄想的因果關係與簡單的關聯交換:不知道為什麼但知道什麼。這改變了幾個世紀以來建立的實踐和挑戰我們最基本的怎樣做決定和理解現實的考慮。

         大資料標明瞭一個主要轉變的開始。大資料將是矽谷炒作的臭名昭著的迴圈的受害者:經過雜誌封面和工業會議的邀請之後,趨勢將消退並且資料重拳出擊者將鬥爭。但迷戀和詛咒對於這個重要性的不理解都將發生。僅僅當望遠鏡使得我們理解宇宙空間,顯微鏡使得我們理解細菌,新的收集和分析大資料的技術幫助我們瞭解我們的世界。在這本書裡,我們不做大資料的傳道者,只是信使。並且,真正的革命不是計算大資料的機器,而是大資料本身和我們怎樣利用它。

         去欣賞資訊革命的程度已經起航,考慮來自真個社會範圍的趨勢,我們的數字宇宙在不斷的擴充套件中。拿天文學來說,當斯隆數字天空調查在2000年開始的時候,這個天文望遠鏡在幾個星期收集的資訊比天文學在整個發展史中收集的資料還多。到了2010年這個調查獲得了非常大的140TB的資訊量。但一個繼承者,一個在智利的大的天氣調查望遠鏡,到2016年將每五天獲得大量的資料。

         這樣的天文學數量也被發現更靠近我們。當科學家在2003年首次解碼人類基因圖譜,這將帶給他們下一個十年緊張的梳理三百萬個基因組的緊張工作。現在,十年之後,一個簡單的設施可以梳理更多的DNA在一天之內。在金融方面,美國每天發生大約七百萬股權交易,為了減少風險,大約三分之二的交易被基於數學模型的計算機演算法處理。

         網際網路公司已經陷入了困難。谷歌每天處理24PB的資料,這個數量相當於美國國會所有印刷材料數量的幾千倍。臉譜公司,一個十年前不存在的公司,每小時獲得1千萬張照片。臉譜會員點選“喜歡”按鈕或者寫下注釋將近每天三百萬次。建立一個數字跟蹤,這個公司能挖掘使用者的喜好。同時,每月谷歌YouTube的8億使用者上傳超過一小時的視訊每秒鐘。在推特上的資訊一年增加了200倍,到 2012年已經超過了4億推特一天。

         從健康科學,從網際網路銀行,這個領域將多樣化,這些一起告訴一個簡單的故事:世界上資料的數量增長更快,不僅僅我們的機器,而且我們的想象力也變得更好。

         很多人試圖計算我們身邊的資訊數量並計算它增長的有多快。他們使得成功的程度多樣化,因為他們測量了不同的事情。一個更廣泛的關於通訊和新聞的研究被來自南加利福尼州的安嫩伯格學校的馬丁希爾伯特進行。他試圖放一個數字在每個被產生、儲存和通訊的事情上。這不僅包括書,繪畫,郵件,照片,音樂和視訊(模擬和數字),而且包括視訊遊戲,電話通話,甚至汽車導航系統,還有通過郵件發出的信。也包括象基於到達每個觀眾的電視和廣播訊號。

         通過希爾伯特的計算,在2007年將有超過300EB的資料儲存。去理解這意味著什麼,考慮這象什麼。一個電影工廠的一個全長度的電影能被壓縮到一個GB檔案。一個EB相當於一百萬個GB。簡單說,它太多了。有趣的是,在2007年,只有百分之七的資料是模擬的(文章,書,照片和其它)。剩下的都是數字的。但不久之前照片看起來非常不同。儘管自從1960年開始,資訊革命和數字時代的含義就廣泛宣傳了,他們變成現實通過一些裝置。在2000年以來,儲存的資訊四分之一是數字的。其它四分之三是在紙張上,電影,黑膠唱片記錄,磁帶裝置等。

         那些上網衝浪和線上買書很長時間的人認為數字資訊的規模不大(事實上,1986年大約百分之四十的計算裝置是口袋裝置,它代表了更多的計算能力在那時比個人電腦要多),但因為數字資料擴充套件太快,每三年要多出一倍多,根據希爾伯特說,這個形式將很快使自己轉化。相反,模擬資訊幾乎沒有增長。所以在2013年世界上被儲存的資訊量大約是1200EB,其中百分之二是非數字的。

         沒有好的方法考慮這個數量的資料意味這什麼。如果都列印成書,將覆蓋全美國的面積並以52層厚。如果放在CD-ROM,它將堆成5堆直到月亮。公元三世紀埃及的托勒密二世想要儲存每一個書一個拷貝,亞歷山大圖書館代表全世界知識的總和。現在數字氾濫掃描全球等同於給每一個生活在地球上的人320倍的資訊被估計儲存在亞歷山大圖書館中。

         事情真的在加速。儲存資訊的增長相當於世界經濟增長的四倍,計算機的處理能力是它的九倍。人們抱怨資訊太多了,每一個人被這種改變衝擊著。

         用一個長遠的觀點來看,目前的資料氾濫與早期的資訊革命相比,古騰堡活字印刷術,大約1439年發明。在隨後的五十年從1453到1503年有大約800萬本書被印刷出版,伊麗莎白愛森斯坦歷史研究機構的研究。這被認為多於所有歐洲已經出版的書,自從1200年前君士坦丁堡的建立。換句話說,它花了50年的時間幾乎是歐洲資訊的二倍,同大約今天的每三年相比。

         這個增長意味著什麼?彼得 諾爾為,一位谷歌的人工智慧專家,喜歡去做影象比較。首先,他讓我們考慮來自法國的拉什科洞窟壁畫的圖示馬,大約是17000年前的舊石器時代。然後考慮一副馬的照片,巴勃羅畢加索的畫,它看起來不像是洞窟裡的繪畫。事實上,畢加索展示的是仿照拉什科的壁畫,自從那以後,“我們什麼也沒有發明”。

         畢加索的話在一方面是真理,但在另一方面不是。再看馬的圖片,需要花很長的時間畫一匹馬,現在一個代表可以被更快的用照相製作出來。這是一個改變,但這也許不是最基本的,因為它最基本的仍然是一樣的:一匹馬的影象。但現在,諾爾為懇求考慮捕獲一匹馬的影象並且速度是每秒24幀。現在,數量的變化帶來了質量的變化。電影同靜態的照片是根本上不同的。這是相同的與大資料:通過改變數量,我們改變了基本定理。

         考慮來自納米技術的類比,在那裡事情變得更小,而不是更大。納米技術背後的原理是,當你達到分子的級別,物理的屬效能夠改變。知道這些新的特點意味這你能發明材料去做事情,那以前不能做到的。在納米級別,例如,更靈活的金屬和可伸縮的陶瓷是可能的,相反的,當我們增加資料的規模,我能做新的事情,但更小的數量我們不能做新的事情。

         有時我們生活在限制當中,並且盲目的相信每件事情是相同的,我們操作的僅僅是規模的功能。拿第三個模擬來自科學。對於人類,一個最重要物理規則是重力感應:它統治著所有我們所做的行為。但對於小的昆蟲,重力幾乎是不重要的。對於水中的漫遊者,這個物理世界的法則是表面的緊張,它允許它們沿著池塘走而不落下去。

         對於物理學,用資訊測量事物的大小。然而谷歌能夠診斷出流感的患病率而官方的資料是基於實際病人對醫生的訪問。通過仔細的搜尋幾百億的搜尋關鍵詞能夠產生實時的答案,比官方的來源更加快。然而,埃齊奧尼的Farecast公司能夠預測一家航空公司機票的波動並且轉換大量的經濟能力到消費者的手裡。所以這兩塊都可以做好通過分析上百億的資料量。

         這兩個例子顯示了大資料的科學和社會屬性的重要性,也是大資料能夠成為經濟價值的一個源泉。他們標明通過這兩個方式,大資料準備動搖每一件事情,從商業和科學,到醫療,政府,教育,經濟,人類和社會的其它每一個方面。

         儘管我們處於大資料開始的時期,我們每天依靠大資料。不需要的郵件過濾被設計自動採用:軟體不能被程式化去知道阻止“via6ra”或者無窮的變種。婚介網站結對夫婦基於那些與之前成功的匹配相關聯的大量屬性。智慧手機中的自動矯正功能指導我們的行動並且增加新的單詞到拼寫詞典基於我們輸入了什麼。然而這些應用只是剛剛開始。從檢測汽車轉彎或剎車到IBM的沃森計算機在遊戲中擊敗人類顯示了危險的境地。這個方法將改造我們生活的這個世界的許多方面。

         作為核心,大資料是關於預測的。儘管它被描述作為電腦科學中叫做人工智慧分支的一個部分,更特指的一個領域叫做機器學習,這是一個特徵的誤導。大資料沒有試圖去教計算機象人類一樣思考。相反,它應用數學到大量資料目的是為了推斷可能性的結論:這些可能性包括郵件資訊是一個垃圾郵件;敲入的單詞“teh”被猜想是“the”;一個正在橫穿馬路的人的軌跡和速度意味著自動駕駛汽車將減慢速度但看到他正在橫穿馬路的時候。這些系統能工作好的關鍵是它們基於大量資料做出的預測。此外,系統被建立成總是不斷地提高自己,通過保持一個標籤基於最好的訊號和模式來尋找更多需要的資料。

         在未來,許多捷足先登者認為我們的世界的許多方面將被計算機系統擴充或者代替,那些今天被認為是人類判斷的唯一領域。不僅是牽線搭橋的驅使,更是因為複雜的任務。亞馬遜能夠推薦理想的書,谷歌能夠排名最相關的網站,臉譜知道我們的喜愛,社交網站能夠占卜我們想找的人。同樣的技術將被應用到診斷疾病,推薦藥方,甚至能夠識別出罪犯在一個人犯罪之前。通過增加通訊到計算機,網際網路從根本上改變了世界。所以大資料也將改變生活的基本方面,通過給它大量的緯度。