1. 程式人生 > >讀 資料即未來 大資料的王者之道

讀 資料即未來 大資料的王者之道

道德經闡述:道生一,一生二,二生三,三生萬物。
1964年美國科學家蓋爾曼提出中子,質子這一類強子是由三個更基本的單元夸克構成的,驗證了道德經中《三生萬物》的物理存在原理。
資料科學是一門日新月異的科學,資料庫常變,軟體常變,硬體常變 ……不變的只有洞察本質的思維方式和對問題解決之道的不懈追求。

為什麼會產生資料科學

首先,隨著社會發展,人類的社會實踐、生產實踐和科學實驗產生了大量的資料。
同時,技術的進步使得資料的記錄和整理變得越來越便利。
資料的海量增加使得人們對於資料採集、清洗、過濾、分析、建模和表達的需求越來越殷切。
人們的聚焦點從如何生產、收集和管理資料,轉向如何更好地建立模型和分析資料。
資料科學應運而生。

資料科學的核心

資料科學的核心在於資料內容之間的相互作用,給定專案的目標以及用於實現這些目標的資料分析方法。
關鍵在於瞭解內部發生的事情:資料怎麼了,我們得到了什麼樣的結果以及為什麼會這樣。

資料科學專案的三個階段組織

  1. 第一階段是準備,初期收集資訊,便於後續處理
  2. 第二階段是構建,利用在準備階段採集的資訊進行統計,採用合適的工具構建產品。
  3. 第三階段是收工,交付產品,獲得反饋,進行修改,支援產品和結束專案

第一章 討論的重點在於資料科學家的思考過程,以及我們身邊的資料科學。
作者希望將我們的注意力聚焦在最重要的事情上。
資料科學家需要擁有許多硬技能,其中包括軟體研發和統計學的知識。
但是,保持適當的角度並意識到許多動態因素是重要的軟技能。


有時候,重點是資料質量,有時候,重點則是資料規模,處理速度,演算法引數,結果解讀或問題的許多其他方面。

意識的可貴

小故事:一個剛起步的初創公司的創始人,想從旅行相關的電子郵件中提取姓名、地點、日期和其他關鍵資訊,以便將這些資料用於移動應用,從而跟蹤使用者的旅行計劃。
這個問題具有一定的共性:電子郵件格式和大小不同,來自航空公司、酒店、預定網站的電子郵件的格式不同,這些格式在一段時間之後可能還會變化,想要提取出有用的資訊具有很大的挑戰。
軟體研發人員可能會認為自然語言處理工具可以解決這個問題。但事實上,當付諸行動去實現的時候會遇到很多意想不到的困難。
而作者在問題提出之初就意識到,這個問題可能會很複雜,想要解決這個問題有兩種方案,一種是人工處理,一種是指令碼處理,或者在兩者之間折衷處理。作者認為折衷處理的方案似乎是最好的。即,針對常見的格式研發一些簡單的模板,通過指令碼提取有用資訊,對於一些特殊的識別不了的檔案則採取人工處理的方式。
作者從這個故事中學習到教訓:當處理設計資料的問題時,意識是非常有機制的。在處理問題時,意識到處理的過程中會遇到的問題,將會使我們的處理更加順暢。

資料科學家和軟體研發人員的不同

軟體研發人員需要處理的問題時具有明確邏輯的,若A,即B的問題。
而資料科學家處理的問題則是類似若A,則可能B的問題。導致這種可能的原因正是資料科學家需要回答的問題。
處理不確定性是資料科學家和軟體研發人員的本質區別。

優先順序:知識,技術,觀點

  1. 知識第一 ——採取行動前,理解問題、資料、方法和目標,並在頭腦中記住它們。
  2. 技術第二 ——軟體只是工具,既可為你賦能也可以約束你。
  3. 觀點最後 ——意見、直覺不是任何專案的重點,一切的觀點都需要驗證。

最佳時間

編寫程式和專案的說明文件,管理好文件的版本。
程式碼組織符合約定的規範。
瞭解業務。
緊靠資料。(採用的方法不要過於繁雜。)

tips:用MLE來確定最可能引發不可預知結果的引數值。