1. 程式人生 > >讀 資料即未來 第二章

讀 資料即未來 第二章


道德經闡述:道生一,一生二,二生三,三生萬物。
1964年美國科學家蓋爾曼提出中子,質子這一類強子是由三個更基本的單元夸克構成的,驗證了道德經中《三生萬物》的物理存在原理。
資料科學是一門日新月異的科學,資料庫常變,軟體常變,硬體常變 ……不變的只有洞察本質的思維方式和對問題解決之道的不懈追求。


第二章 通過好的提問設定目標

  • 保持意識:經驗、領域專家和其他與專案相關的知識會幫助你在問題出現之前做好規劃和預測。
  • 與客戶溝通時需要了解客戶的觀點和他們的潛在的對資料科學知識的匱乏。
  • 花時間思考所有可能的路徑以回答那些好問題。

解決願望和現實的矛盾

資料科學家在沒有看到或者接觸到相關的資料之前,面臨著大量的不確定性,主要是關於具體哪些資料可用,能夠提供多少證據來回答所提出的問題等。

  1. 針對具體問題來發現事實而不是意見
    一個問題和哪些因素相關應當是通過自己的實踐去證明,如果需要剔除某些因素,應當要求有明確的證據證明這些因素對問題沒有影響。
  2. 建議可交付物
    明確提出客戶希望得到的結果的形式,確定完成專案的標準。
  3. 根據指示而不是願望來迭代
    要清楚地瞭解迭代的成本,專案的迭代方向,而不是根據自己的主觀想法來開發程式。

要不斷地提問自己,要解決什麼問題

————————————————————————————————————

提出關於資料的好問題

  1. 好問題的假設是具體的。
    想要驗證一個假設的推論的正確與否首先要確認假設的場景是否正確。
  2. 一定要提問,提出的問題無論答案如何,都會使你更接近實際結果,讓你的工作更容易。
  3. 正面和負面的結果都有所幫助。

資料科學家最有價值的特徵之一是對可能發生的事情的意識以及為此做好準備的能力。


用資料來回答問題

  1. 資料相關並且足夠麼
  2. 以前有人做過麼
    上網檢視別人做的經驗,教訓,看看有無有用的資訊。
  3. 弄清可以用的資料和軟體
    社會上有很多容易得到或者成本較低的資料來源。
  4. 預見行動的障礙
    如果演算法得不到期待的結果怎麼辦。
    如何檢驗結果是否合理。