1. 程式人生 > >深度學習與處理用於資料驅動的地球系統科學

深度學習與處理用於資料驅動的地球系統科學

開發十年,就只剩下這套架構體系了! >>>   

Deep learning and process understanding for data-driven Earth system science

Markus Reichstein et al 2019 in Nature。

這是一篇綜述性文章,介紹了機器學習如何在地學中的應用與挑戰。地球系統科學進入了大資料時代。地球系統資料就是典型的大資料,具備大資料四大特徵:volume, velocity, variety and veracity(體積,速度,多樣性和準確性),例如各種遙感、定點觀測、模式資料。如今面臨挑戰就是如何從這些大資料中提取並解讀資訊,因為資訊收集速度遠大於我們所能消化的速度。資料的增多並未帶對系統預測能力的提高,我們需要對資料進行理解。在這種背景下,機器學習就是我們很好的機遇。

文章從以幾方面具體展開論述:

(1)地學中最先進的機器學習。諸如神經網路、隨機森林方法很早就應用於地學中的分類、變化檢測、土壤製圖問題。但這些應用是針對空間,在時間上是相對靜態的,但地球是不斷變化的。機器學習迴歸方法在時間動態上具有優勢,比如具有隱含層的人工神經網路,可預測碳通量在時間與空間上的變化。但這些應用也存在一些問題需要注意,比如外推能力,抽樣或資料偏見,忽視混雜因素,統計關聯與因果關係等。經典的機器學習方法需要一些先驗知識確定一些時空相關feature,而不能自動探索資料的時空特徵。一些時空動態特徵比如“記憶效應”可以作為feature手動加入到傳統機器學習中,但最新的深度學習已經沒有這些限制。

(2)深度學習在地球系統科學中的機遇。深度學習已在其他領域得到了眾多應用,但在地學中的應用還處於初級階段。已有一些研究顯示深度學習可以很好的提取時空特徵,比如極端天氣,而不需要很多人類干預。這也可用於城市變化的遙感自動提取。深度學習方法通常被劃分為空間學習(例如,用於物件分類的卷積神經網路)和序列學習(例如,語音識別),但兩者逐漸融合,可應用視訊與動作識別問題。這些問題類似於地學中隨時間變化的多維度結構,例如有序降水對流與植被狀態。雖然有很大應用前景,但應用於時空變化的大氣海洋傳輸或植被動態還有待發展。

(3)深度學習在地球系統科學中的挑戰。雖然傳統深度學習的應用物件與地學現象有很大相似性,但也存在重要區別。比如高光譜、多波段就比基於三原色RGB的計算機影象識別複雜很多,此外還有帶噪音、有缺測的衛星資料。另外,波段、時間與空間維度的集合也會帶來計算量的挑戰。計算機圖片中識別可大量“狗”,“貓”現成訓練樣本,而地學中沒有類似被標記的大量訓練樣本,如干旱。對外,作者總結出五大挑戰,分別來自可解釋性、物理一致性、資料的複雜與確定性、缺少標記樣本、以及計算需求。若這些挑戰能解決,那麼深度學習將對地學帶來巨大改變。近期最有前景的應用是”臨近預報“(nowcasting),未來是長期預測。作者認為深度學習將很快成為地學中分類與時空預測問題的主要方法。

(4) 與物理建模整合。物理建模(理論驅動)與機器學習建模(資料驅動)過去往往被認為是兩個領域,具有不同正規化。但其實兩種方法可以相互補充的,前者外推能力強,後者更靈活可發現新規律。作者提出二種方法可結合的幾個潛在點:改善引數化、用機器學習“替代”物理模型中子模組、模型與觀測的不匹配分析,約束子模型、代替模型或模擬。

(5)推動科學發展。機器學習方法無疑給分類和預測問題帶來大幅提高。機器學習的資料驅動方法還可從資料中挖掘出過去不知道的新資訊,從而推動新機制新認識的產生。

(6)結語。地球科學大資料時代機器學習很有用,但也存在應用挑戰,作者對此提出四點建議:識別資料的特殊性、推論的合理性和可解釋性、不確定性估計、針對複雜物理模式進行驗證。未來過程模型與機器學習將進一步結合。資料驅動的機器學習不會替代物理模型,但是會起到補充和豐富的作用,最終實現混合建模。

第一作者Markus Reichstein是大牛,單位是1 Department of Biogeochemical Integration, Max Planck Institute for Biogeochemistry, Jena, Germany. 2 Michael-Stifel-Center Jena for Data-driven and Simulation Science, Jena, Germany.