1. 程式人生 > >《爆發·大資料時代預見未來的新思維》筆記與心得(一)

《爆發·大資料時代預見未來的新思維》筆記與心得(一)

馬克·吐溫曾說過: 歷史不會重演,卻自有其韻律

           雖然萬事皆顯出自發偶然之態,但實際上它遠比你想象中容易預測。

在日常生活中,雖然我們可以針對某些事情自由做決定,但似乎人生的大部分時光還是 處於“無人駕駛”狀態。人類社會從資源豐富走向資源匱乏,從戰爭迴歸和平,又在和平中爆 發戰爭。這一切不禁引起大家的思索:人類發展究竟有沒有遵循潛在的規律,遵循那些並非 人類自創的規律?

書的目標-無規律運動的規律之處

人類行為中更深層次的 規律,並確證這些行為是能夠被探究、被預測,而且無疑是能夠為人所用的

               通過研究,大家會看到生命的韻律,會發現人類行為中更深層次的 規律,並確證這些行為是能夠被探究、被預測,而且無疑是能夠為人所用的。有了這些四處蒐集來的資訊,我們不會再把人類的行為視為互不相關、隨意偶然的獨立 事件。相反,它們應該是相互依存的奇妙大網的一部分,是相互串聯的故事集中的一個片段。 它們會在不經意時顯示次序,在意想不到之處偶然出現。我們觀察得越仔細就越容易發現, 人類行為遵循著一套簡單並可重複的模型,而這些模型則受制於更加廣泛的規律。

人類運動軌跡的本質

              類似懸浮在水中的花粉微粒的運動,人類大部分時間也是運動不止。不同的是,人類不是受到微小而不可見的原子的 撞擊,而是被轉化成一系列任務、責任以及動機的不可見的神經元的顫動所驅使。我們的活動軌跡可能跟布朗顯微鏡下的花粉所做的 曲線運動一樣不可預測。

資料讓追蹤成為可能

               如果真有透視未來的千里眼,歷史真的不會重演,人類的動機和慾望也不會重複嗎:我 們總是想要更好、更多、更不一樣的東西?

例如:天氣預測問題

方法一:“天氣預測是在假設以前的氣候狀況會重複的基礎上進行

方法二:物理學家理查森很久以前就發現還有一種更好的預測方法。1913 年,流體 運動方程已經公之於世。所以,如果知道當下的天氣狀況,原則上你就能推測出隨後的大氣 變化。這就意味著,利用物理和數學知識,他就能預測第二天的天氣情況

數量增多減少犯錯概率

             陪審員越多,錯判概率越小。 我們相信沒有人能總是做出正確的決定,尤其是那些會影響到我們自由的人。


             例如:我們假設一名陪審員有 80%的時候能看到真相,但他還是有 20%的出錯機 會。所以,你肯定不想把自己的自由押在一個陪審員的手上。但如果有 12 個陪審員,雖然 每個人出錯的概率仍是 20%,但你被冤枉的可能性只有(0.2)12,也就是 0.0000004 的概率。 這就意味著 12 名陪審員參加 5 億次審判才有一次冤枉被告的可能。

泊松的悖論

              泊松的計算在哲學層面上存在一個深層假說:他荷載取值,假設人類行為是隨機的,將 事情簡化了。不管你是最聰明的智者,還是最愚笨的傻瓜;不管你是法官,還是犯人;不管 你是懷疑論者,還是迷信的信徒,一旦坐上陪審席,我們知道的只是你做出正確裁決的概率 只有 90%。這也就是說,泊松將不可預測性和偶然性等同而語了。他接著指出,一旦我們承 認人類行為是最隨機的,它突然之間就可以被預測了。

  • 爆發洞察

         這似乎是個悖論:如果不可預測性是指偶然性,那麼偶然性又怎麼能預測呢?答案很簡 單:泊松所謂的預測跟我們日常生活中追求的有所不同。類似愛因斯坦推導原子運動規律。愛因斯坦知道推測出 單個原子的運動軌跡是不可能的,所以轉而假設原子的運動是隨機的,然後推匯出原子離釋 放點的距離遵循擴散理論。


          同樣,泊松根本沒去想陪審員是否做出了正確裁定,而是假設每個陪審員都像擲骰子那 樣投票:他們大部分時間是對的,但偶爾會出錯,而且我們永遠無法知道他們什麼時候是對 的,什麼時候是錯的。在這一假設的前提下,泊松利用定罪率的統計資料推匯出了整個陪審 系統的可靠性。


         為了更好地理解泊松的推導過程,我們先說說我的電話記錄。
           我平均每天打 12 通電話,也就是說差不多每兩個小時就會打一次。不過,根據這些你 並不能推匯出我將在何時打電話。但是,如果假設我打電話的模型是隨機的,你就會對我的 通訊問題有所瞭解。利用泊松的公式,你可以推算出我下個小時不打電話的可能性(這個概 率是 60%——也就是可能性很大),或者我連續打 5 通電話的可能性(概率是 0.02%——不太 可能)。利用他的公式,你也能推匯出我一天之內不打電話的概率(0.001%——可能性極小)

  • 例子

          目標:一家電話集團的某個工程師負責測定在你所居住的小區安裝的行動電話訊號塔的 容量。

          風險:

  1. 如果他設定的容量過低,很多電話就會掉線,使用者和老闆都會很不高興;
  2. 如果設定的 容量過大,就會浪費公司的資源,不用說肯定也會惹惱老闆。

         但如果這位工程師精確地知道 你所在社群中每個人計劃使用電話的時間,他就能預測出何時是高峰期,也就能計算出訊號 塔的容量最大值。

         但工程師不可能知道你將來的通話情況。不過,他知道每個使用者平均每天要打 3 通電話。 同時,他假設所有人的通話模型都是隨意的,那麼利用泊松的公式,他就能推測出任何時間 點計劃使用電話的人數。然後,他就可以設定足夠大的容量,使得 100 部電話同時使用時掉 線的電話不超過 3 部,以確保公司達到“無瑕疵”的移動服務的基準。

  • 泊松規律應用
  1. 意外的發生遵循泊松規律,泊松理論自此便成了保險業的基本理 論。
  2. 如今,在假設受隨意瀏覽和通訊模型影響的網路通訊量遵循泊松過程的條件下,人們設 計了路由器。
  3. 被用來計算因傳染病死亡的人數,以及預測每個家庭得傷寒的人數。

          ps: 與此同時,科學家們仍默然接受人類行為科學的基本正規化:我們的行為實際上是隨意的、 不可預測的、偶然的、無法確定的、不可預知的,以及無規無序的。

 每個人都是習慣的奴隸

 要想預知未來,必先了解過去

  • 爆發的頻率:熵          

          如果丹尼爾每個工作日都是上午 8 點開始工作,中午在同一個餐廳吃午飯,然後在下午 6 點左右下班,並在家裡一直待到第二天早上,那麼他未來的行蹤對我們而言就沒什麼祕密 可言了。用物理學或資訊科學的術語來說,丹尼爾的熵就是零。換句話說,他的行蹤是完全 能被預測的。相反,利用隨機數生成器做決定的哈里昆人的熵就趨於無限大,如此一來他們 的行蹤就是完全不可知的。         

           儘管資料顯示我的可預測程度很高,但熵值低並不會禁錮我的未來——只有當你知道我 的過往歷史的時候,你才能做出預測。另外,如果我的熵值很高,我的過去並不能說明未來 會怎麼樣;如果我的熵值很低,我的行為會很容易被預見,但這只是在你瞭解我過往行蹤的 情況下才能實現。這反映了一個很淺顯俗套的道理:要想預知未來,必先了解過去。

資料,是一把雙刃劍 

  • 越是相互依賴,隱私期待就越少 

        一窺掌管我們隱私的一個基本方程: 一個社群裡的人越是相互依賴,對隱私的期待就越少。人們越是需要家人和朋友,就越

難以對某件事守口如瓶。只有在信賴金錢化的北美和西歐,人們才會要求獨處的權利。 如今,越來越多的研究表明,幸福和健康的關鍵取決於我們的朋友的數量和質量。所以,誰說我們做的就一定對?我們的隱私是不是拿幸福換來的呢?

  • 沒有隱私的未來 

         在美國,我們經常會向公司透露我們的個人資訊。作為交換,我們能獲得一些真正的或 認知上的利益,比如產品或服務的打折。然而,如果我們意識到政府正在蒐集我們的個人資訊,我們又會齊聲抗議。歐洲乾脆就順著人們:法律明文禁止企業之間分享客戶的個人資訊, 但歐洲聯盟法規定所有通訊公司都必須將客戶的資訊(包括個人的行蹤和通訊記錄)儲存 6 個月到兩年時間,並與政府分享。 

  • 大資料時代的隱私保護 

         預測個體的行為已經變得非常容易了。未來比過去更具價值,因為我們的旅行和購物計劃可能是商業圈中最有影響力的商品。雖然我們的過去由安全防火牆 和隱私法保護著,但通過精密系統的預測,我們的未來卻極易被人掌握。基於此,我想出了 一個新的模型並稱之為“準隱私”。簡單地說就是:誰掌握著我們未來行為的資訊?誰又會從 中獲利?