1. 程式人生 > >《大資料時代》讀書筆記——知道“是什麼”就夠了,沒必要知道“為什麼”。我們不必非得知道現象背後的原因,而是要讓資料自己“發聲”

《大資料時代》讀書筆記——知道“是什麼”就夠了,沒必要知道“為什麼”。我們不必非得知道現象背後的原因,而是要讓資料自己“發聲”

引言——一場生活、工作與思維的大變革

今天,一種可能的方式,亦是本書採取的方式,認為大資料是人們在大規模資料的基礎上可以做到的事情,而這些事情在小規模資料的基礎上是無法完成的。大資料是人們獲得新的認知、創造新的價值的源泉;大資料還為改變市場、組織機構,以及政府與公民關係服務。

9

這僅僅只是一個開始,大資料時代對我們的生活,以及與世界交流的方式都提出了挑戰。最驚人的是,社會需要放棄它對因果關係的渴求,而僅需關注相關關係。也就是說只需要知道是什麼,而不需要知道為什麼。這就推翻了自古以來的慣例,而我們做決定和理解現實的最基本方式也將受到挑戰。

9

人類儲存資訊量的增長速度比世界經濟的增長速度快4倍,而計算機資料處理能力的增長速度則比世界經濟的增長速度快9倍。

13

事實上,儘管規律相同,但是我們能夠感受到的約束,很可能只對我們這樣尺度的事物起作用。對於人類來說,唯一一個最重要的物理定律便是萬有引力定律。……但對於細小的昆蟲來說,重力是無關緊要的。對它們而言,物理宇宙中有效的約束是表面張力,這個張力可以讓它們在水上自由行走而不會掉下去。但人類對於表面張力毫不在意。……對於萬有引力產生的約束力而言,生物體的大小是非常重要的。類似地,對於資訊而言,規模也是非常重要的。(如谷歌能夠基於大量真實病例資訊能夠實時的得到流感情況,Farecast可以預測機票價格波動)它們之所以如此給力,都因為存在供其分析的數千億計的資料項。

15

大資料的核心就是預測。

16

大資料的精髓在於我們分析資訊時的三個轉變,這些轉變將改變我們理解和組建社會的方法。

第一個轉變就是,在大資料時代,我們可以分析更多的資料,有時候甚至可以處理和某個特別現象相關的所有資料,而不再依賴於隨機取樣。……大資料讓我們更清楚地看到了樣本無法揭示的細節資訊。

第二個改變就是,研究資料如此之多,以至於我們不再熱衷於追求精確度。……擁有了大資料,我們不再需要對一個現象刨根問底,只要掌握大體的發展方向即可。……適當忽略微觀層面上的精確度會讓我們在巨集觀層面擁有更好的洞察力。

第三個轉變因前兩個轉變而促成,即我們不再熱衷於尋找因果關係。……應該尋找事物之間的相關關係。……大資料告訴我們“是什麼”而不是“為什麼”。

17

例如,對衝基金通過剖析社交網路Twitter上的資料資訊來預測股市的表現;亞馬遜和奈飛根據使用者在其網站上的類似查詢來進行產品推薦;Twitter,Facebook和LinkedIn通過使用者的社交網路圖來得知使用者的喜好。

19

資料化意味著我們要從一切太陽底下的事物中汲取資訊,甚至包括很多我們以前認為和“資訊”根本搭不上邊的事情。

20

01更多——不是隨機樣本,而是全體資料

統計學的一個目的就是用盡可能少的資料來證實儘可能重大的發現。

29

在對一個量(例如年收入)進行估計的時候,如果總體可以分為很多層(例如所有人口按照不同年齡或者不同職業分成很多層),一種直觀的想法是每一層隨機抽樣的樣本大小應該正比於這個層所包含人口的多少。奈曼指出,最優分配並非如此 簡單,實際上,層越大,層內待估計量的變化越大,該層抽樣的單位費用越小,則該層的抽樣就應該越多。

33

取樣分析的精確性隨著取樣隨機性的增加而大幅提高,但與樣本數量的增加關係不大。為什麼會這樣?原因很複雜,但是有一個比較簡單的解釋就是,當樣本數量達到了某個值之後,我們從新個體身上得到的資訊會越來越少,就如同經濟學中的邊際效應遞減一樣。

33

邊際效用遞減,是指在一定時間內,在其他商品的消費數量保持不變的條件下,當一個人連續消費某種物品時,隨著所消費的該物品的數量增加,其總效用(total utility)雖然相應增加,但物品的邊際效用(marginal utility, 即每消費一個單位的該物品,其所帶來的效用的增加量)有遞減的趨勢。

認為樣本選擇的隨機性比樣本數量更重要,這種觀點是非常有見地的。

33

隨機取樣取得了巨大的成功,……它本身存在許多固有的缺陷。它的成功依賴於取樣的絕對隨機性,但是實現取樣的隨機性非常困難。一旦取樣過程中存在任何偏見,分析結果就會相去甚遠。

34

隨機取樣不適合考察子類別的情況。

34

當人們想了解更深層次的細分領域的情況時,隨機取樣的方法就不可取了。(你設想一下,一個對1000個人進行的調查,如果要細分到“東北部的富裕女性”,調查的人數就遠遠少於1000人了。即使是完全隨機的調查,倘若只用了幾十個人來預測整個東北部富裕女性選民的意願,還是不可能得到精確的結果啊!而且,一旦取樣過程中存在任何偏見,在細分領域所做的預測就會大錯特錯。)

35

大資料與喬布斯的癌症治療——他與癌症鬥爭的過程中採用了不同方式,成為世界上第一個對自身所有DNA和腫瘤DNA進行排序的人。對於一個普通的癌症患者,醫生只能期望他的DNA排列同試驗中使用的樣本足夠相似。但喬布斯的醫生們能夠基於他的特定基因組成,按所需效果用藥。如果癌症病變導致藥物失效,醫生可以及時更換另一種藥,也就是喬布斯所說的,“從一片睡蓮葉跳到另一片上。”喬布斯開玩笑說:“我要麼是第一個通過這種方式戰勝癌症的人,要麼就是最後一個因為這種方式死於癌症的人。”

36

Xoom與跨境匯款異常交易報警——……單獨來看,每筆交易都是合法的,但是事實證明這是一個犯罪集團在試圖詐騙。而發現異常的唯一方法就是,重新檢查所有的資料,找出樣本分析法錯過的資訊。

39

大資料是指不用隨機分析法這樣的捷徑,而採用所有資料的方法。

39

社會科學是被“樣本=總體”撼動得最厲害的學科。隨著大資料分析取代了樣本分析,社會科學不再單純依賴於分析實證資料。這麼學科過去曾非常依賴樣本分析、研究和調查問卷。

42

如果把一個在社群內有很多連線關係的人充社群關係網中剔除掉,這個關係網會變得沒那麼高效但卻不會解體;但如果把一個與所在社群之外的很多人有著連線關係的人從這個關係網中剔除,整個關係網很快就會破碎成很多小塊。……誰能想象一個在關係網內有著眾多好友的人的重要性還不如一個只是與很多關係網外的人有聯絡的人呢?這說明一般來說無論是針對一個小團體還是整個社會,多樣性是有額外價值的。這個結果促使我們重新審視一個人在社會關係網中的存在價值。

43

作者對這項研究的理解稍有不妥。該研究並未關注從網路中移除節點(手機使用者)的情形,而是考察從網路中移除鏈路(通話關係)對網路結構的影響。借鑑滲流理論,作者發現,移除弱關係而非強關係反而會導致快速破碎成若干小碎片。

02更雜——不是精確性,而是混雜性

執迷於精確性是資訊缺乏時代和模擬時代的產物。只有5%的資料是結構化且能適用於傳統資料庫的。如果不接受混亂,剩下的95%的非結構化資料都無法被利用,只有接受不精確性,我們才能開啟一扇從未涉足的世界的窗戶。

45

假設你要測量一個葡萄園的溫度,但是整個葡萄園只有一個溫度測量儀,那你就必須確保這個測量儀是精確的而且能夠一直工作。反過來,如果每100棵葡萄樹就有一個測量儀,有些測試的資料可能會是錯誤的,可能會更加混亂,但眾多的讀書合起來就可以提供一個更加準確的結果。因為這裡麵包含了更多的資料,而它不僅能抵消掉錯誤資料造成的影響,還能提供更多的額外價值。

48

現在想想增加讀書頻率的這個事情。如果每隔一分鐘就測量一下溫度,我們至少還能夠保證測量結果是按照時間有序排列的。如果變成每分鐘測量十次甚至百次的話,不僅讀書可能出錯,連時間先後都可能搞混掉。

48

計算機象棋程式總是步步為贏是由於對殘局掌握的更好了,而之所以能做到這一點也只是因為往系統里加入了更多的資料。實際上,當棋盤上只剩下六枚棋子或更少的時候,這個殘局得到了全面的分析,而且接下來所有可能的走法(樣本=總體)都被制入了一個龐大的資料表格。這個資料表格如果不壓縮的話,會有一太位元組那麼多。所以,計算機在這些重要的想起殘局中表現得完美無缺和不可戰勝。

50

無所不包的谷歌翻譯系統——2006年,谷歌公司也開始涉足機器翻譯。這被當作實現“收集全世界的資料資源,並讓人人都可以享受這些資源”這個目標的一個步驟。谷歌翻譯開始利用一個更大更繁雜的資料庫,也就是全球的網際網路,而不再只利用兩種語言之間的文字翻譯。……儘管其輸入源很混亂,但較其他翻譯系統而言,谷歌的翻譯質量相對而言還是最好的,而且可以翻譯的內容更多。……之所以能做到這些,是因為它將語言視為能夠判別可能性的資料,而不是語言本身。

53

錯誤並不是大資料固有的特性,而是一個亟需我們去處理的現實問題,並且有可能長期存在。因為擁有更大資料量所能帶來的商業利益遠遠超過增加一點精確性。

56

當我們上傳照片到Flickr網站的時候,我們會給照片新增標籤。也就是說,我們會使用一組文字標籤來編組和搜尋這些資源。人們用自己的方式創造和使用標籤,所以它是沒有標準、沒有預先設定的排列和分類,也沒有我們必須遵守的類別的。任何人都可以輸入新的標籤,標籤內容事實上就成為了網路資源的分類標準。……因為它們的存在,網際網路上的資源變得更加容易找到,特別是像圖片、視訊和音樂這些無法用關鍵詞搜尋的非文字類資源。

59

網際網路上最火的網址都表明,它們欣賞不精確而不會假裝精確。當一個人在網站上見到一個Facebook的“喜歡”按鈕時,可以看到有多少其他人也在點選。當數量不多時,會顯示像“63”這種精確的數字。當數量很大時,則只會顯示近似值,比方說“4000”。這並不代表系統不知道正確的資料是多少,只是當數量規模變大的時候,確切的數量已經不那麼重要了。

60

要想獲得大規模資料帶來的好處,混亂應該是一種標準途徑,而不應該是竭力避免的。

60

寬容錯誤會給我們帶來更大價值。

63

我們怎麼看待使用所有資料和使用部分資料的差別,以及我們怎樣選擇放鬆要求並取代嚴格的精確性,將會對我們與世界的溝通產生深刻的影響。隨著大資料技術成為日常生活中的一部分,我們應該開始從一個比以前更大更全面的角度來理解事物,也就是說應該將“樣本=總體”植入我們的思維中。

65

大資料要求我們有所改變,我們必須能夠接受混亂和不確定性。精確性似乎一直是我們生活的支撐,就像我們常說的“釘是釘,鉚是鉚”。但認為每個問題只有一個答案的想法是站不住腳的。不管我們承不承認。一旦我們承認了這個事實甚至擁護這個事實的話,我們離真相就又近了一步。

66

03更好——不是因果關係,而是相關關係

知道“是什麼”就夠了,沒必要知道“為什麼”。在大資料時代,我們不必非得知道現象背後的原因,而是要讓資料自己“發聲”。

67

林登與亞馬遜推薦系統——……很快找到了一個解決方案。他意識到,推薦系統實際上並沒有必要把顧客與其他顧客進行對比,這樣做其實在技術上也比較繁瑣。它需要做的是找到產品之間的關聯性。1998年,林登和他的同事申請了著名的“item-to-time”協同過濾技術的專利。

69

林登做了一個關於評論家所創造的銷售業績和計算機生成內容所產生的銷售業績的對比測試,結果他發現兩者之間的業績相差甚遠。他解釋說,通過資料推薦產品所增加的銷售遠遠超過書評家的貢獻。……知道“是什麼”可以創造點選率,這種洞察力足以重塑很多行業,不僅僅只是電子商務。……亞馬遜的推薦系統梳理出了有趣的相關關係,但不知道背後的原因。知道是什麼就夠了,沒必要知道為什麼。

71

相關關係的核心是量化兩個資料值之間的數理關係。相關關係強是指當一個數據值增強時,另一個數據值很有可能也會隨之增加。我們已經看到過這種很強的相關關係,比如谷歌流感趨勢:在一個特定的地理位置,越多的人通過谷歌搜尋特定的詞條,該地區就有更多的人患了流感。

相反,相關關係弱就意味著當一個數據值增加時,另一個數據值幾乎不會發生變化。例如,我們可以尋找關於個人的鞋碼和幸福的相關關係,但會發現它們幾乎扯不上什麼關係。

……當然,即使是很強的相關關係也不一定能解釋每一種情況,比如兩個事物看上去行為相似,但很有可能只是巧合。……相關關係沒有絕對,只有可能性。……通過給我們找到一個現象的良好的相關物,相關關係可以幫助我們捕捉現代和預測未來。

71

沃爾瑪可以讓供應商監控銷售速率、數量以及存貨的情況。沃爾瑪通過打造透明度來迫使供應商照顧好自己的物流。許多情況下,沃爾瑪不接受產品的“所有權”,除非產品已經開始銷售,這樣就避免了存貨的風險也降低了成本。實際上,沃爾瑪運用這些資料使其成為了世界上最大的“寄售店”。……沃爾瑪公司注意到,每當在季節性颶風來臨之前,不僅手電筒銷量增加了,而且POP-Tarts蛋撻的銷量也增加了。因此,當季節性風暴來臨時,沃爾瑪會把庫存的蛋撻放在靠近颶風用品的位置,以方便形色匆匆的顧客從而增加銷量。

73

我們用資料驅動的關於大資料的相關關係分析法,取代了基於假想的易出錯的方法。大資料的相關關係分析法更準確、更快,而且不易受偏見的影響。建立在相關關係分析法基礎上的預測是大資料的核心。

75

益百利有一種服務,可以根據個人的信用卡交易記錄預測個人的收入情況。通過分析公司擁有的信用卡歷史記錄資料庫和美國國稅局的匿名稅收資料,益百利能夠得出評分結果。證明一個人的收入狀況要花費10美元左右,但益百利的預測結果售價不足1美元

76

這些相關關係甚至使得零售商能夠比較準確地預測預產期,這樣就能夠在孕期的每個階段給客戶寄送相應的優惠券,這才是塔吉特公司的目的。

78

在社會環境下尋找關聯物只是大資料分析法採取的一種方式。同樣有用的一種方法是,通過找出新種類資料之間的相互聯絡來解決日常需求。比方說,預測分析法……系統把這些異常情況與正常情況進行對比,就會知道什麼地方出了毛病。通過儘早地發現異常,系統可以提醒我們在故障之前更換零件或者修復問題。通過找出一個關聯物並監控它,我們就能預測未來。

79

預測性分析並不能解釋故障可能會發生的原因,只會告訴你存在什麼問題。

80

當收集、儲存和分析資料的成本比較高的時候,應該適當地丟棄一些資料。

80

這個系統依賴的是相關關係,而不是因果關係。它告訴你的是會發生什麼,而不是為什麼發生。這正是這個系統的價值!……資料表明,早產兒的穩定不但不是病情好轉的標誌,反而是暴風雨前的寧靜,就像是身體要它的器官做好抵抗困難的準備。

81

幸福的非線性關係——多年來經濟學家和政治家一直錯誤的認為收入水平和幸福感是成正比的。……但事實上,它們之間存在一種更復雜的動態關係:對於收入水平在1萬美元以下的人來說,一旦收入增加,幸福感會隨之提升;但對於收入水平在1萬美元以上的人來說,幸福感並不會隨著收入水平提高而提升。……這個發現對決策者來說非常重要。如果只看到線性關係的話,那麼政策重心應完全放在增加收入上,因為這樣才能增加全民的幸福感。而一旦察覺這種非線性關係,策略的重心就會變成提高低收入人群的收入水平,因為這樣明顯更划算。

82

當我們說人類是通過因果關係瞭解世界時,我們指的是我們在理解和解釋世界各種現象時使用的兩種基本方法:一種是通過快速、虛幻的因果關係,還有一種就是通過緩慢、有條不紊的因果關係。大資料會改變這兩種基本方法在我們認識世界時所扮演的角色。

84

首先,我們的直接願望就是了解因果關係。即使無因果關係存在,我們也還是會假定其存在。研究證明,這只是我們的認知方式,與每個人的文化背景、生長環境以及教育水平是無關的。……看看下面這三句話:“弗雷德的父母遲到了;供應商快到了;弗雷德生氣了。”我們讀到這裡時,可能立馬就會想到弗雷德生氣並不是因為供應商快到了,而是他父母遲到了的緣故。實際上,我們也不知道到底是什麼情況。即便如此,我們還是不禁認為這些假設的因果關係是成立的。……證明了人有兩種思維模式。第一種是不費力的快速思維,通過這種思維方式幾秒鐘就能得出結果;另一種是比較費力的慢性思維,對於特定的問題,就是需要考慮到位。

84

快速思維模式使人們偏向用因果聯絡來看待周圍的一切,即使這種關係並不存在。……在古代,這種快速思維模式是很有用的,它能幫助我們在資訊量缺乏卻必須快速做出決定的危險情況下化險為夷。但是,通常這種因果關係都是並不存在的。……卡尼曼指出,平時生活中,由於惰性,我們很少慢條斯理地思考問題。所以快速思維模式就佔了上風。因此,我們會經常臆想出一些因果關係,最終導致了對世界的錯誤理解。

85

父母經常告訴孩子天冷時不戴帽子和手套就會感冒。然而,事實上,感冒和穿戴之間卻沒有直接的聯絡。有時,我們在某個餐館用餐後生病了的話,我們就會自然而然的覺得這是餐館食物的問題,以後可能就不再去這家餐館了。事實上,我們肚子痛也許是因為其他的傳染途徑,比如和患者握過手之類的。然而,我們的快速思維模式使我們直接將其歸於任何我們能在第一時間想起來的因果關係,因此,這經常導致我們做出錯誤的決定。

85

事實證明,一般來說,人被狂犬病狗咬後患上狂犬病的概率只有七分之一。即使巴斯德的疫苗有效,這也只適用於七分之一的案例中。無論如何,就算沒有狂犬疫苗,這個小男孩活下來的概率還是有85%。

87

與相關關係一樣,因果關係被完全證實的可能性幾乎是沒有的,我們只能說,某兩者之間很有可能存在因果關係。

87

相關關係很有用,不僅僅是因為它能為我們提供新的視角,而且提供的視角都非常清晰。而我們一旦把因果關係考慮進來,這些視角就有可能被矇蔽掉。

88

若要找出相關關係,我們可以用數學方法,但如果是因果關係的話,這卻是行不通的。

88

如果把以確鑿資料為基礎的相關關係和通過快速思維構想出的因果關係相比的話,前者就更具有說服力。

89

在大多數情況下,一旦我們完成了對大資料的相關關係分析,而又不再滿足於僅僅知道“是什麼”時,我們就會繼續向更深層次研究因果關係,找出背後的“為什麼”。

89

(關於紐約每年有很多沙井蓋會發生爆炸的事情,聯合愛迪生電力公司通過統計學家的幫助,得出證明)最重要的因素是這些電纜的使用年限和有沒有出現過問題。

91

我們需要改變我們的操作方式,使用我們能收集到的所有資料,而不僅僅是使用樣本。我們不能再把精確性當成重心,我們需要接受混亂和錯誤的存在。另外,我們應該側重於分析相關關係,而不再尋求每個預測背後的原因。

92

……這就意味著普遍規則都不重要了,比方說世界的運作、人類的行為、顧客買什麼、東西什麼時候會壞等。如今,重要的就是資料分析,它可以揭示一切問題。

93

“理論的終結”似乎暗示著,儘管理論仍存在於像物理、化學這樣的學科裡,但大資料分析不需要成形的概念。這實在荒謬。……儘管這個答案不怎麼樣!大資料絕對不會叫囂“理論已死”,但它毫無疑問會從根本上改變我們理解世界的方式。很多舊有的習慣將被顛覆,很多舊有的制度面臨挑戰。

93

大資料時代將要釋放出的巨大價值使得我們選擇大資料的理念和方法不再是一種權衡,而是通往未來的必然改變。但是在我們到達目的地之前,我們有必要了解怎樣才能到達。

94

大資料發展的核心動力來源於人類測量、記錄和分析世界的渴望。資訊科技變革隨處可見,但是如今的資訊科技變革的重點在“T”(技術)上,而不是在“I”(資訊)上。現在,我們是時候把聚光燈打向“I”,開始關注資訊本身了。

97

04資料化——一切皆可“量化”

大資料發展的核心動力來源於人類測量、記錄和分析世界的渴望。資訊科技變革隨處可見,但是如今的資訊科技變革的重點在“T”(技術)上,而不是在“I”(資訊)上。現在,我們是時候把聚光燈打向“I”,開始關注資訊本身了。

97

病毒型社交網路——一種線上社交網路,其典型營銷方式是,一旦你加入了,系統會自動從你註冊或關聯的郵箱中找到聯絡人,併發信邀請他們加入。很多讀者應該都收到過LinkedIn的邀請信,就是一個典型的例子。

100

許多船掛了一面特殊的旗幟,表明它參與了這個資訊交流計劃(莫里要求大家寫航海日誌圖表)。這些旗幟就是出現在一些網站上的友情連結的前身。

101

他深知只要相關資訊能夠提取和繪製出來,這些髒亂的航海日誌就可以變成有用的資料。通過這樣的方式,他重複利用了別人眼裡完全沒有意義的資料資訊。從這個意義上講,莫里就是資料化的先驅。就像奧倫對Farecast所做的事情一樣,用航空業過去的價格資訊催生了一個大有賺頭的新公司;也像谷歌的工程師所做的一樣,通過過去的檢索記錄預測到了流感的暴發;而莫里則是發揮出了單純用於記錄航行位置的資料的其他用途。

102

這說明在遠在資訊數字化之前,對資料的運用就已經開始了。如今我們經常把“數字化”和“資料化”兩個概念搞混,但是對這兩個概念的區分實際上非常重要。

102

日本先進工業技術研究所的坐姿研究與汽車防盜系統——他們所做的研究就是關於一個人的坐姿。當一個人坐著的時候,他的身形、姿勢和重量分佈都可以量化和資料化。……有了這個系統之後,汽車就能識別出駕駛者是不是車主。……我們可以利用事故發生之前的姿勢變化情況,分析出坐姿和行駛安全之間的關係。這個系統同樣可以在司機疲勞的時候發出警示或者自動剎車。同時,這個系統不但可以發現車輛被盜,而且可以通過收集到的資料識別出盜賊的身份。

102

“資料”(data)這個詞在拉丁文裡是“已知”的意思,也可以理解為“事實”。

104

資料化——指一種把現象轉變為可製表分析的量化形式的過程。

數字化——指把模擬資料轉換成用0和1表示的二進位制碼,這樣電腦就可以處理這些資料了。

104

計量和記錄一起促成了資料的誕生,它們是資料化最早的根基。

105

公元1000年,教皇西爾維斯特二世開始倡導使用阿拉伯數字。12世紀,介紹阿拉伯數字的書籍被翻譯成拉丁文,傳播到了整個歐洲地區。這也就開啟了算術的騰飛。

106

複式記賬法,是指以資產與權益平衡關係作為記賬基礎,對於每一項經濟業務,都要在兩個或兩個以上的賬戶中相互聯絡進行登記,系統地反應資金運動變化結果的一種記賬方法。複式記賬的理論依據是會計基本等式,即“資產=負債+所有者權益”。

107

數字化帶來了資料化,但是數字化無法取代資料化。數字化是把模擬資料變成計算機可讀的資料,和資料化有本質的不同。109

當文字變成資料,它就大顯神通了——人可以用之閱讀,機器也可用之分析。

112

可以不失公允地說,亞馬遜深諳數字化內容的意義,而谷歌觸及了資料化內容的價值。

113

當方位變成資料——對地理位置的資料化需要滿足一些前提條件。我們需要能精確地測量地球上的每一塊地方;我們需要一套標準的標記體系;我們需要收集和記錄資料的工具。簡而言之,就是地理範圍、標準、工具或者說量化、標準化、收集。只有具備了這些,我們才能把位置資訊當成資料來儲存和分析。

113

在西方,對位置資訊的量化起源於希臘。公元前200年,發明了用格網線來劃分區域的系統,類似於經緯度法。但後來被遺忘了。公元1400年《地理學》轟動一時,而書中提到的系統現在仍被用來解決航海導航的難題,從那以後,地圖上標上了經緯度和比例尺。1884年,在美國華盛頓召開的國際子午線會議上,同意將英格蘭格林尼治定為本初子午線和零度經線所穿過的地方(只有法國投了反對票)。20世紀40年代,墨卡託方位法把世界劃分成了60個區域,提高了地理定位的精確性。1978年見證了一個偉大的轉變,當時構成全球定位系統(GPS)的24顆衛星第一次發射成功。

114

多效地理定位與UPS的最佳行車路徑——UPS為貨車定製的最佳行車路徑一定程度上也是根據過去的行車經驗總結出來的。……系統也設計了儘量少左轉的路線,因為左轉要求貨車在交叉路口穿過去,所以更容易出事故。而且,貨車往往需要待一會兒才能左轉,也會更耗油,因此,減少左轉使得行車的安全性和效率得到了大幅提升。

116

萊維斯說,“預測給我們知識,而知識賦予我們智慧和洞見。”

117

“現實挖掘”這裡指的是通過處理大量來自手機的資料,發現和預測人來行為。

118

一項內部研究表明,個人會償還債務的可能性和其朋友會償還債務的可能性呈正相關。

120

很多人對“物聯網”有著宗教般的狂熱,試圖在一切生活中的事物中都植入晶片、感測器和通訊模組。這個詞聽起來好像和網際網路親如姐妹,其實不過是一種典型的資料化手段罷了。

124

水渠讓城市的發展成為可能,印刷機推進了啟蒙運動,報紙為民族國家的興起奠定了基礎。但這些基礎設施都側重於流動——關於水、關於知識。電話和網際網路也是如此。相比較而言,資料化代表著人類認識的一個根本性轉變。有了大資料的幫助,我們不會再將世界看作是一連串我們認為或是自然或是社會現象的事件,我們會意識到本質上世界是由資訊構成的。

125

整整一個多世紀以來,物理學家們一直宣稱情況應該是這樣的——並非原子而是資訊才是一切的本源

125

05價值——“取之不盡,用之不竭”的資料創新

2000年,為了阻止垃圾郵件,路易斯·馮·安想到了一個辦法,即在註冊過程中顯示一些波浪狀、辨識度低的字母。人能夠在幾秒鐘內識別並輸入正確的文字資訊,但電腦可能會被難倒。雅虎採用了這個方法後,一夜之間減輕了垃圾郵件帶來的苦惱。他的創作成為驗證碼(全稱為“全自動區分計算機和人類的圖靈測試”)。

128

不同於物質性的東西,資料的價值不會隨著它的使用而減少,而是可以不斷地被處理。這就是經濟學家所謂的“非競爭性”的好處:個人的樹勇會妨礙其他人的使用,而且資訊不會像其他物質產品一樣隨著使用而有所耗損。因此,亞馬遜在向其使用者,不論是生成這些資料的客戶或是其他客戶做出建議時,都可以不斷地使用過去的交易資料。

132

資料的價值並不僅限於特定的用途,它可以為了同一目的而被多次使用,也可以用於其他目的。要了解大資料時代究竟有多少資訊對我們有價值,後面這一點尤其重要。

132

用物理學家解釋能量的方法或許可以幫助我們理解資料。他們認為物體擁有“儲存著的”或“潛在的”能量,只是處於休眠狀態,比如壓縮了的彈簧或放置在山頂的小球……同理,在基本用途完成後,資料的價值仍然存在,只是處於休眠狀態,像彈簧或小球一樣,直到它被二次利用並重新釋放它的能量。在大資料時代,我們終於有了這種思維、創造力和工具,來釋放資料的隱藏價值。

135

最終,資料的價值是其所有可能用途的總和。這些似乎無限的潛在用途就像是選擇,這裡不是指金融工具意義上的選擇,而是實際意義上的選擇。這些選擇的總和就是資料的價值,即資料的“潛在價值”。

135

過去,一旦資料的基本用途實現了,我們便認為資料已經達到了它的目的,準備將其刪除,讓它就此消失。……而在大資料時代,資料就像是一個神奇個鑽石礦,在其首要價值被挖掘後扔能不斷產生價值。資料的潛在價值有三種最為常見的釋放方式:基本再利用、資料集整合和尋找”一份錢兩份貸“。

135

資料再利用的價值對於那些收集或控制著大型資料集但目前去很少使用的機構來說是個好訊息,比如在那些線下運作的傳統企業。……麥肯錫的諮詢顧問們列舉了一家物流公司(名稱保密)。這家公司在交付貨物的過程中積累了大量產品的全球出貨資訊。嗅到了這個機會後,該公司成立了專門的部門,以商業和經濟預測的形式出售彙總資料。換言之,它創造了谷歌過去搜索查詢業務的一個線下版本。

137

有時,處於休眠狀態的資料的價值只能通過與另一個截然不同的資料集結合才能釋放出來。

139

丹麥癌症協會:手機釋放增加致癌率——為了滿足醫療或商業的目的,兩個資料集都採用了嚴格的質量標準,資訊的收集不存在偏差。事實上,資料是在多年前就已經生成的,當時的目的與這項研究毫無關係。最重要的是,這項研究並沒有基於任何樣本,卻很接近“樣本=總和”的準則,即包括了幾乎所有癌症患者和移動使用者。……最後,研究沒有發現使用行動電話和癌症風險增加之間存在任何關係。

139

隨著大資料的出現,資料的總和比部分更有價值。當我們將多個數據集的總和重組在一起時,重組總和本身的價值也比單個總和更大。……例如,房地產網站將房地產資訊的價格新增在美國的社群地圖上,同時,還聚合了大量的資訊,如社群近期的交易和物業規格,以此來預測區域內具體每套住宅的價值。這個結果極具指導意義,儘管通過視覺展示使得資料更加親和且非常簡單,但採用位置資訊並將其置於地圖上畢竟不是一個創造性的飛躍。

140

資料創新3:可擴充套件資料——有些零售商在店內安裝了監控攝像頭,這樣不僅能認出商店扒手,還能跟蹤在商店裡購物的客戶流和他們停留的位置。零售商利用後面的資訊可以設計店面的最佳佈局並判斷營銷活動的有效性。

141

谷歌街景與GPS採集——一輛谷歌街景汽車每時每刻都能積累大量的離散資料流。這些資料之所以具有可擴充套件性,是因為谷歌不僅將其用於基本用途,而且進行了大量的二次利用。例如,GPS資料不僅優化了其地圖服務,而且對谷歌自動駕駛汽車的運作功不可沒。

141

資料創新4:資料的折舊值——……僅僅依據時間來判斷顯然不夠,因此,亞馬遜等公司建立了複雜的模型來幫助自己分離有用和無用的資料。例如,如果客戶瀏覽或購買了一本基於以往購買記錄而推薦的書,電子商務公司就認為這項舊的購買記錄仍然代表著客戶的喜好。這樣,他們就能夠評價舊資料的有用性,並使模型的“折舊率”更具體。

143

資料創新5:資料廢氣——微軟與谷歌的拼寫檢查……這兩家公司的不同做法很能說明問題。微軟只看到了拼寫檢查作為文書處理這一個目的的價值,而谷歌卻理解了其更深層次的價值。不僅利用錯別字開發了世界上最好、最新式的拼寫檢查器來提高搜尋質量(如:搜尋結果頁面的頂部顯示“你要找的是不是:XXX”),而且將其應用於許多其他服務中,如搜尋的“自動完成”功能、Gmail、谷歌文件甚至翻譯系統。

146

一個用來描述人們在網上留下的數字軌跡的藝術詞彙出現了,這就是“資料廢氣”。它是使用者線上互動的副產品,包括瀏覽了哪些頁面、停留了多久、滑鼠游標的位置、輸入了什麼資訊等等。

146

06角色定位——資料、技術與思維的三足鼎立

大資料價值鏈的3大構成——資料本身、技能與思維。

第一種是基於資料本身的公司。如Twitter。

第二種是基於技能的公司。如沃爾瑪。

第三種是基於思維的公司。就是通過想法獲得價值。

160

VIAS & MasterCard 與商戶推薦——MasterCard發現,如果一個人在下午四點左右給汽車加油的話,他很可能在接下來的一個小時內要去購物或者去餐館吃飯,而這一個小時的花費大概在35~50美元之間。商家可能正需要這樣的資訊,因為這樣它們就能在這個時間段的加油小票背面附上加油站附近商店的優惠券。(MasterCard就是一個大資料掌控公司)

163

在一系列情況下,一個出院了的病人會在一個月之內再次入院。……但是研究也發現了一個出人意料的重要因素,那就是病人的心裡狀況。如果對病人最初的診斷中有類似“壓抑”這種暗示心理疾病的詞的話,病人再度入院的可能性大很多。……這表明,如果病人出院之後的醫學干預是以解決病人的心理問題為重點,可能會更有利於他們的身體健康。

165

FlightCaster的大資料思維——……它主要基於分析過去十年裡每個航班的情況,然後將其與過去和現實的天氣情況進行匹配。有趣的是,資料擁有者就做不到這樣的事情。……如果美國運輸統計局、美國聯邦航空局和美國天氣服務這些資料擁有者敢將航班晚點預測用作商業用途的話,國會可能就會舉辦聽證會並否決這個提議。……同樣,航空公司不可以這麼做,也不會這麼做,因為這些資料所表達的資訊越隱蔽對它們就越有利。FlightCaster的預測是如此的準確,就連航空公司的職員也開始使用它了。但需要注意的一點就是,雖然航空公司是資訊的源頭,但是不到最後一秒它是不會公佈航班晚點的,所以它的資訊是不及時的。

166

所謂大資料思維,是指一種意識,認為公開的資料一旦處理得當就能為千百萬人急需解決的問題提供答案。

167

雖然谷歌和亞馬遜都是三者兼具,但是他們的商業策略並不相同。谷歌在剛開始收集資料的時候,就已經帶有多次使用資料的想法。比方說,它的街景採集車收集全球定位系統資料不光是為了建立谷歌地圖,也是為了製成全自動汽車。相對地,亞馬遜更關注的是資料的基本用途而且也只把資料的二級用途作為額外收益。比方說,它的推薦系統把使用者瀏覽過的網頁資料作為線索,但是它並沒有利用它預測經濟狀況和流感爆發。

170

亞馬遜的Kindle電子書閱讀器記錄了一些讀者反覆標註和強調過的內容,但是亞馬遜並沒有把這些資料資訊賣給作者或者出版社。書商肯定很樂意知道哪些段落是受讀者歡迎的,因為這樣他們就能提高銷量;作者應該也想知道書籍的哪些地方不受讀者歡迎,這樣他們就能根據讀者的喜好提高作品質量;出版社則可以通過這些資料知道哪些主題的書籍更有可能成為暢銷書。但是,亞馬遜把這些資料都雪藏了。

170

Inrix的分析發現,上下班高峰時期的交通狀況變好了,這也就說明失業率增加了,經濟狀況變差了。同時,Inrix把收集到的資料賣給了一個投資基金,這個投資基金把交通情況視作一個大型零售商場銷量的代表,一旦附近車輛很多,就說明商場的銷量會增加。

174

資料的價值已經從技術轉移到了資料自身和大資料思維上。

176

如果車輛的自動制動系統在某段路上老是啟動的話,就說明這段路比較危險,應該考慮更換路徑。

176

蘋果公司進軍移動手機行業就是一個很好的例子。在iPhone推出之前,移動運營商從使用者手中收集了大量具有潛在價值的資料,但是沒能深入挖掘其價值。相反,蘋果公司在與運營商簽訂的合約中規定運營商要提供給它大部分的有用資料。通過來自多個運營商提供的大量資料,蘋果公司所得到的關於使用者體驗的資料比任何一個運營商都要多。蘋果公司的規模效益體現在了資料上,而不是固有資產上。

相關推薦

資料時代讀書筆記——知道“是什麼”必要知道“為什麼”我們不必非得知道現象背後原因而是資料自己發聲

引言——一場生活、工作與思維的大變革 今天,一種可能的方式,亦是本書採取的方式,認為大資料是人們在大規模資料的基礎上可以做到的事情,而這些事情在小規模資料的基礎上是無法完成的。大資料是人們獲得新的認知、創造新的價值的源泉;大資料還為改變市場、組織機構,以及政府與公民關係

還不會處理時間資料?看這篇

  如何統一時間格式?   於統計來源的不同,或者記錄資料人員的錯誤,會導致日期格式各種各樣。下面表格是從我公眾號裡匯出的excel資料。   標題列是釋出文章的題目,日期列是這篇文章釋出的時間,當日漲粉量列是釋出該篇文章以後

Python GUI之tkinter視窗視窗教程集合(看這篇

  Tkinter支援16個核心的視窗部件,這個16個核心視窗部件類簡要描述如下: Button:一個簡單的按鈕,用來執行一個命令或別的操作。 Canvas:組織圖形。這個部件可以用來繪製圖表和圖,建立圖形編輯器,實現定製視窗部件。 Checkbutton:代表一個變數,它有兩個不同的值。點選這個按鈕將會在

vuex 資料狀態管理重新整理資料不丟失 這篇

vue 腳手架安裝,這裡我就不介紹了 說重點 ! 安裝 vuex npm install vuex --save 安裝成功後 ,現在我們就可以使用 vuex 了 1: 先在src 目錄下建立 store 資料夾 , 檔案目錄如圖: 這裡我先

資料時代:生活、工作與思維的變革》讀書筆記

1、        大資料與雲端計算是一個問題的兩面:一個是問題,一個是解決問題的方法。通過雲端計算對大資料進行分析、預測,會是的決策更為精準,釋放出更多資料的隱藏價值。資料,這個21世紀人類探索的新邊疆,正在被雲計算髮現、征服。 2、        人類儲存資訊量的增

資料時代:生活、工作與思維的變革》讀書筆記

引言 1、        大資料與雲端計算是一個問題的兩面:一個是問題,一個是解決問題的方法。通過雲端計算對大資料進行分析、預測,會是的決策更為精準,釋放出更多資料的隱藏價值。資料,這個21世紀人類探索的新邊疆,正在被雲計算髮現、征服。 2、        人類儲存資訊量

讀書筆記思維導圖掌握這些技巧

讀書筆記 思維導圖 技巧 如今越來越多的人開始用思維導圖來學習、記憶、梳理邏輯關系,也有越來越多的人嘗試用思維導圖來做讀書筆記。讀書筆記的主要內容按分類有提綱式、摘錄式、仿寫式、評論式、心得式、存疑式、簡縮式,我們接觸的傳統讀書筆記都是整段整段的,不利於直觀閱讀吸收,用思維導圖做讀書筆記的話

資料學習線路圖分享自學資料看這裡

學習大資料需要java作為基礎! 一般來說學大資料,首先要學java基礎、javaweb、SSM框架之後在開始大資料的學習。我給你一套大資料的學習線路圖,你從線路圖就能知道java學到什麼程式設計師就可以學大資料了! 大資料學習線路圖總      

想搞懂資料看這篇文章

網際網路時代的到來,各種專業詞彙術語充斥著我們的大腦,大資料,人工智慧更是當下時代的熱點潮流,很多傳統企業都徘徊穿梭於這個潮流當中,傳統廣告的褪去,移動網際網路時代的大資料精準整合營銷變得越來越重要!   很多初學者,對大資料的概念都是模糊不清的,大資料是什麼,能做什麼,學的時候,該按照什麼線

資料】華為內部狂轉好文資料看這一篇

來源:華為IT產品解決方案導讀科技的進步在很多的時候總會超出我們的想象,試想如果未來我們一個人擁

實戰資料讀書筆記

與線下實體經營輕易對接 1、將電子券傳送到手機上,使用者可以直接拿著手機去消費 2、利用手機上的位置定位功能,公司推出“簽到”服務,可以直接把手機使用者帶到企業活動地點 精準的位置服務 1、移動終端可以隨時隨地為消費者收集、分析資料,讓消費者與身邊的人更好地互

【轉】【修真院“善良”系列之十八】WEB程序員從零開始到就業的全資料V1.0——只看這一篇

absolute feed 自己 session rem 好的 ans 一個 css樣式 這是兩年以來,修真院收集整理的學習資料順序。以CSS15個任務,JS15個任務為基礎,分別依據要完成任務的不同的技能點,我們整理出來了這麽一篇在學習的時候需要看到的資料。這是Versi

關於VIM知道這些

VIM基本操作 打開文件 vim [option] file +n. :打開文件後,讓光標處於第n.行的行首,+默認行尾 \\ vim +5 file 打開file並讓光標處在第5行 進入插入模式 i \\ 在光標處輸入

零基礎自學人工智能看這些資料(300G資料免費送)

工具 flow 領取 學習 講解 及其 需要 量化 決策 為什麽有今天這篇?首先,標題不要太相信,哈哈哈。 本公眾號之前已經就人工智能學習的路徑、學習方法、經典學習視頻等做過完整說明。但是鑒於每個人的基礎不同,可能需要額外的學習資料進行輔助。特此,向大家免費發送近300G的

Java面向對象知道這些

每一個 多個 原則 動手 str 思維方式 code 產生 對象的引用 面向對象 面向對象是一種思維方式,相對於面向過程而言的。 面向過程在流程中關註動作執行的每一個細節 — 自己動手做 面向對象重點找這個對象,只要找到了對象,那麽這個對象所具有的功能就能夠被使用 —

易學筆記--Servlet和JSP--入門看這一篇

第4章:作為Servlet:請求和響應/4.1 Servlet載入過程 第4章:作為Servlet:請求和響應/4.2 請求 第4章:作為Servlet:請求和響應/4.3 響應 第4章:作為Servlet:請求和響應/4.4 資源下載例項 第4章:作為Servlet:

Python Web不知道怎麼學?看這篇!

Python有很多作用,接觸過python的朋友肯定知道其幾乎無所不能,前端、後端、資料、ML\AI、自動化、爬蟲、資料分析,人工智慧等等。 第一階段:Python入門(框架再怎麼變,基本語法不會變,基礎中的基礎) ·資料型別 ·迴圈判斷 ·常用模組 ·函式、迭代器、裝飾器

資料分析用它 | 37 個場景你用集算器

【報表查詢效能】 1. 資料量大或併發多導致的查詢效能低下,BI 介面拖拽響應很慢 通過集算器編寫更為簡單高效的演算法加速計算程序,提升查詢效能 採用集算器可控儲存和索引機制,為 BI(CUBE)提供高速的資料儲存 2.T+0 實時全量查詢報表涉及資料量大,影響生產系統執

java資料結構讀書筆記--引論

1 遞迴簡論 需求:求出f(x)=2f(x-1)+x²的值。滿足f(0)=0 public class Recursion { // 需求: 求出f(x)=2f(x-1)+x²的值。滿足f(0)=0 public static void main(String[

【MYSQL學習筆記02】MySQL的高階應用之Explain(完美詳細版看這一篇

版權宣告:本文為博主原創文章,未經博主允許不得轉載。 https://blog.csdn.net/wx1528159409 最近學習MySQL的高階應用Explain,寫一篇學習心得與總結,目錄腦圖如下: 一、Explain基本概念 1. Explain定義 · 我們知道M