1. 程式人生 > >大資料時代的新科學正規化:資料密集型科學

大資料時代的新科學正規化:資料密集型科學


1、什麼是科學正規化?

“正規化”(paradigm)這一概念最初由美國著名科學哲學家Thomas Samuel Kuhn於1962年在《科學革命的結構》中提出來,指的是常規科學所賴以運作的理論基礎和實踐規範,是從事某一科學的科學家群體所共同遵從的世界觀和行為方式。“正規化”的基本理論和方法隨著科學的發展發生變化。

新正規化的產生,一方面是由於科學研究正規化本身的發展,另一方面則是由於外部環境的推動。人類進入到21世紀以來,隨著是資訊科技的飛速發展,促使新的問題不斷產生,使得原有的科學研究正規化受到各個方面的挑戰。

圖靈獎得主,關係型資料庫的鼻祖Jim Gray在2007年加州山景城召開的NRC-CSTB(National Research Council-Computer Science and Telecommunications Board)大會上,發表了留給世人的最後一次演講“The Fourth Paradigm: Data-Intensive Scientific Discovery”

,提出將科學研究的第四類正規化。其中的“資料密集型”就是現在我們所稱之為的“大資料”。Jim是一位航海運動愛好者,在會議結束後不久的2007年1月28日,他駕駛的帆船在茫茫大海中失去聯絡。


JimGray (right) toasts Gordon Bell at Gordon's 70th birthday, August 2004

Jim總結出科學研究的正規化共有四個:

  • 幾千年前,是經驗科學,主要用來描述自然現象;

  • 幾百年前,是理論科學,使用模型或歸納法進行科學研究;

  • 幾十年前,是計算科學,主要模擬複雜的現象;

  • 今天,是資料探索,統一於理論、實驗和模擬。它的主要特徵是:資料依靠資訊裝置收集或模擬產生,依靠軟體處理,用計算機進行儲存,使用專用的資料管理和統計軟體進行分析。

2、經驗科學

人類最早的科學研究,主要以記錄和描述自然現象為特徵,又稱為“實驗科學”(第一正規化),從原始的鑽木取火,發展到後來以伽利略為代表的文藝復興時期的科學發展初級階段,開啟了現代科學之門。

經驗科學是“理論科學”的對稱,指偏重於經驗事實的描述和明確具體的實用性的科學,一般較少抽象的理論概括性。在研究方法上,以歸納為主,帶有較多盲目性的觀測和實驗。一般科學的早期階段屬經驗科學,生物、化學尤其如此。

這種方法自從17世紀的科學家Francisc Bacon闡明之後,科學界一直沿用著。他指出科學必須是實驗的、歸納的,一切真理都必須以大量確鑿的事實材料為依據,並提出一套實驗科學的“三表法”,即尋找因果聯絡的科學歸納法

。其方法是先觀察,進而假設,再根據假設進行實驗。如果實驗的結果與假設不符合,則修正假設再實驗。

經驗科學的主要研究模型是:科學實驗。

典型範例包括:伽利略的物理學、動力學。伽利略是第一個把實驗引進力學的科學家,他利用實驗和數學相結合的方法確定了一些重要的力學定律。在1598~1591年間,伽利略通過對落體運動做細緻的觀察之後,在比薩斜塔上做了“兩個鐵球同時落地”的著名實驗,從此推翻了亞里士多德“物體下落速度和重量成比例”的學說,糾正了這個持續了1900年之久的錯誤結論。牛頓的經典力學、哈維的血液迴圈學說以及後來的熱力學、電學、化學、生物學、地質學等都是實驗科學的典範。

3、理論科學

經驗科學的研究,顯然受到當時實驗條件的限制,難於完成對自然現象更精確的理解。科學家們開始嘗試儘量簡化實驗模型,去掉一些複雜的干擾,只留下關鍵因素(例如:“足夠光滑”、“足夠長的時間”、“空氣足夠稀薄”),然後通過演算進行歸納總結,這就是第二正規化:理論科學。

理論指人類對自然、社會現象按照已有的實證知識、經驗、事實、法則、認知以及經過驗證的假說,經由一般化與演繹推理等方法,進行合乎邏輯的推論性總結。人類藉由觀察實際存在的現象或邏輯推論,而得到某種學說,如果未經社會實踐或科學試驗證明,只能屬於假說。如果假說能借由大量可重現的觀察與實驗而驗證,併為眾多科學家認定,這項假說可被稱為理論。理論科學偏重理論總結和理性概括,強調較高普遍的理論認識而非直接實用意義的科學。在研究方法上,以演繹法為主,不侷限於描述經驗事實。

這種研究正規化一直持續到19世紀末,都堪稱完美,牛頓三大定律成功解釋了經典力學,麥克斯韋理論成功解釋了電磁學,經典物理學大廈美輪美奐。但之後量子力學和相對論的出現,則以理論研究為主,以超凡的頭腦思考和複雜的計算超越了實驗設計,而隨著驗證理論的難度和經濟投入越來越高,科學研究開始顯得力不從心。

理論科學的主要研究模型是:數學模型。

典型範例包括:數學中的集合論、圖論、數論和概率論;物理學中的相對論、弦理論、圈量子引力理論;地理學中的大陸漂移學說、板塊構造學說;氣象學中的全球暖化理論;經濟學中的微觀經濟學、巨集觀經濟學以及博弈論;電腦科學中的演算法資訊理論、計算機理論。

4、計算科學

20世紀中葉,John von Neumann提出了現代電子計算機架構,利用電子計算機對科學實驗進行模擬模擬的模式得到迅速普及,人們可以對複雜現象通過模擬模擬,推演出越來越多複雜的現象,典型案例如模擬核試驗、天氣預報等。隨著計算機模擬越來越多地取代實驗,逐漸成為科研的常規方法,即第三正規化:計算科學。


郵票中的John von Neumann

計算科學,又稱科學計算,是一個與資料模型構建、定量分析方法以及利用計算機來分析和解決科學問題相關的研究領域。在實際應用中,計算科學主要用於對各個科學學科中的問題進行計算機模擬和其他形式的計算。典型的問題域包括:數值模擬,重建和理解已知事件(如地震、海嘯和其他自然災害),或預測未來或未被觀測到的情況(如天氣、亞原子粒子的行為);模型擬合與資料分析,調整模型或利用觀察來解方程(如石油勘探地球物理學、計算語言學,基於圖的網路模型,複雜網路等);計算和數學優化,最優化已知方案(如工藝和製造過程、運籌學等)。

計算科學的主要研究模型是:計算機模擬和模擬。

典型範例包括:熱力學和分子問題、訊號系統,以及傳統的人工智慧等。

5、資料密集型科學

隨著資料的爆炸性增長,計算機將不僅僅能做模擬模擬,還能進行分析總結,得到理論。資料密集正規化理應從第三正規化中分離出來,成為一個獨特的科學研究正規化。也就是說,過去由牛頓、愛因斯坦等科學家從事的工作,未來完全可以由計算機來做。這種科學研究的方式,被稱為第四正規化:資料密集型科學。資料密集型科學由傳統的假設驅動向基於科學資料進行探索的科學方法的轉變。


The fourth paradigm

我們可以看到,第四正規化與第三正規化,都是利用計算機來進行計算,區別是什麼呢?現在大多科研人員,應該都比較理解第三正規化,在研究中總是被專家評委不斷追問“科學問題是什麼?”、“有什麼科學假設?”,這就是先提出可能的理論,再蒐集資料,然後通過計算來驗證。而基於大資料的第四正規化,則是先有了大量的已知資料,然後通過計算得出之前未知的理論。

我們已經知道,大資料時代最大的轉變,就是放棄對因果關係的渴求,取而代之關注相關關係。也就是說,只要知道“是什麼”,而不需要知道“為什麼”。

關聯關係是大資料的本質特徵之一。

這就顛覆了千百年來人類的思維慣例,據稱是對人類的認知和與世界交流的方式提出了全新的挑戰。因為人類總是會思考事物之間的因果聯絡,而對基於資料的相關性並不是那麼敏感;相反,電腦則幾乎無法自己理解因果,而對相關性分析極為擅長。這樣我們就能理解了,第三正規化是“人腦 + 電腦”,人腦是主角;而第四正規化是“電腦 + 人腦”,電腦是主角。進而由此引發的新一代人工智慧技術。

我們知道要發現事物之間的因果聯絡,在大多數情況下總是困難重重的。我們人類推導的因果聯絡,總是基於過去的認識,獲得“確定性”的機理分解,然後建立新的模型來進行推導。但是,這種過去的經驗和常識,也許是不完備的,甚至可能有意無意中忽略了重要的變數。

舉個例子。現在我們人人都在關注霧霾天氣。我們想知道:霧霾天氣是如何發生的,如何預防?首先需要在一些“代表性”位點建立氣象站,來收集一些與霧霾形成有關的氣象引數。根據已有的機理認識,霧霾天氣的形成不僅與源頭和大氣化學成分有關,還與地形、風向、溫度、溼度氣象因素有關。僅僅這些有限的引數,就已經超過了常規監測的能力,只能進行簡化人為去除一些看起來不怎麼重要的,只保留一些簡單的引數。那些看起來不重要的引數會不會在某些特定條件下,起到至關重要的作用?如果再考慮不同引數的空間異質性,這些氣象站的空間分佈合理嗎,足夠嗎?從這一點來看,如果能夠獲取更全面的資料,也許才能真正做出更科學的預測,這就是第四正規化的出發點,也許是最迅速和實用的解決問題的途徑。

現在,我們的手機就可以監測溫度、溼度,可以定位空間位置,監測大氣環境化學和PM2.5功能的感測裝置也在逐漸走向市場,這些移動的監測終端更增加了測定的空間覆蓋度,同時產生了海量的資料,利用這些資料,分析得出霧霾的成因,最終進行預測指日可待。

計算科學的主要研究模型是:資料探勘和機器學習,特別是機器學習。

典型範例包括幾乎所有的大資料實踐場景,以及基於大資料的人工智慧。特別是當前火熱的新一代人工智慧研究。我們在過去認為非常難以解決的智慧問題,會因為大資料的使用而迎刃而解,比如圍棋。同時,大資料還會徹底改變未來的商業模式,很多傳統的行業都將採用資料驅動的智慧技術實現升級換代,同時改變原有的商業模式。大資料和機器智慧對於未來社會的影響是全方位的,對整個社會帶來巨大的衝擊,尤其是在智慧革命的初期。

6、總結

從大資料中探索“不知道自己不知道”的現象和規律,成為科學研究中必不可少的部分。科學從經驗科學到理論科學再到電腦科學,現在發展到資料密集型科學,科學正規化也相應地從經驗正規化發展到理論正規化再到計算機模擬正規化到第四正規化。每一個正規化都有各自相應的特徵和範例,清楚認識各個正規化的特點和所包含的範例,對於科學研究第四正規化的發展有著重要的意義,對資料科學和資料工程也有著重要的推動意義,同時大資料發展也將引爆智慧革命,深刻地影響著我們今天的每一個人。

注:本文參考瞭如下資料

  • Tony Hey, et al., The Fourth Paradigm: Data-Intensive Scientific Discovery, 2009.

  • 鄧仲華李志芳科學研究正規化的演化情報資料工作, 2013.

  • 趙斌第四正規化:基於大資料的科學研究科學網, 2015.

這篇有點學術化!