國防領域大資料應用的先決條件及注意事項
知遠戰略與防務研究所/珠峰
譯自:韓國國防研究院《週刊國防論壇》第1707號(18-6)2018年2月
【知遠導讀】韓國從2015年起正式著手推進國防大資料應用示範專案,韓國國防部也確認國防領域發展大資料具備可行性。為了防止大資料專案在未經過充分驗證和準備過程的情形下,發展速度過快、規模過大,作者提出國防領域大資料發展需適當放緩步子,夯實大資料應用基礎,明確大資料應用目標,有效應對大資料應用過程中出現的副作用。本篇為節選,進一步瞭解請登入知遠官網http://www.knowfar.org.cn/查詢。
今天,關於大資料技術的研究與應用已非常普遍,許多國家的公共部門和民間企業對此進行了大量的投入。韓國政府將大資料列入“政府3.0”政策的核心課題之一,大力推進大資料的實際運用。國防領域也作為“國防3.0”一環,具體實施國防大資料示範專案。
本文介紹了大資料基本特徵及國防大資料示範專案,並提出國防領域大資料擴大與發展過程中需要注意的事項。第一、大資料的應用必須夯實大量資料甄別/儲存、培養資料專業人才等基礎。第二、大資料的應用必須源於明確的、具體的目標。第三、大資料應用需能夠感知危險,並加以有效應對。
當前,大資料的應用範圍正逐步擴大到自動翻譯、醫院診療、微塵預測/預防、氣象預測、提高電力網效率等各個領域。今天,大資料已超出單純的IT技術範疇,成為第4次工業革命的核心動力。正因為如此,許多國家的公共部門和民間企業對此進行了大量的投入。韓國也以2013年開放公共資料和啟動21個大資料示範專案為起點,從政府層面正式拉開大資料時代的帷幕。國防領域也積極適應這一發展趨勢,2013年開始著手大資料應用研究,並基於研究結果從2015年起推進國防大資料示範專案。隨著大資料熱潮席捲而來,在包括國防在內的所有公共領域,“大資料”和基於此的“第4次工業革命”正在成為最受關注的焦點。
不過,越是對特定尖端技術滿懷期盼、讚譽有加的時候,就越應該再三反思,大資料同樣不是例外。即便大資料確實是不可逆的巨集觀層面上的變化,我們也要正確認識這種趨勢,並判斷這種趨勢是否沿著正確的方向發展。據美國凱捷諮詢公司(Capgemini)2014年調查結果顯示,有80%的企業正在推進大資料專案,不過僅有8%的企業認為專案是非常成功的。從韓國的情況來看,雖說新聞頭條經常報道某個大資料專案取得明顯成效,但是不可否認儘管投入了大量預算,還是有一些專案觸礁或沒有取得具有標誌性意義的成果。
表1.韓國國防大資料示範專案
國防領域大資料應用需要考慮的事項
大資料應用的基礎(高質量的大量資料+資料專業人才)是否夯實?
大資料應用的基本前提是大量資料的儲存。不過,在推進大資料應用專案的過程中,我們需優先考慮是否擁有支撐大資料分析的“優質的大量資料”。問題是大資料應用的後來居上者——公共部門並不是基於積累的資料來考慮如何嘗試大資料方法論,而是先大步追隨“大資料應用”的宣言口號,然後再去尋找相關資料。顯然,這是本末倒置,把主要的和次要的、本質的和非本質的關係弄顛倒了。在這種背景下,很多人錯誤地認為,大資料是體量大、結構單一的資料集合,不需對資料的性質、特性、資料的出處等進行深入研究,只要將盡可能多的資料整合到一起,就可以在較短時間內生成能夠獲取有意義結果的大資料。事實上,大資料的描述價值與資料規模並不呈正比例關係。資料分析中有“垃圾進,垃圾出(Garbage in, garbage out)”的說法,即無論資料的量有多大,只要輸入的資料 (in-put)是錯誤的,就只能得出錯誤的結果(out-put)。與此相反,即便資料的規模相對較小,只要積累的是優質資料,就能比無用的大量資料發揮更大的作用。
總結民間的成功經驗,可以為國防領域的大資料應用提供許多有益啟示。因在人機巔峰對決中戰勝圍棋九段李世石而聞名的人工智慧機器人阿爾法(AlphaGo),通過“涵蓋數千名圍棋選手的比賽及十幾萬個棋譜”的機器學習生成學習演算法,並基於演算法間的無數次反覆對弈進行優化篩選,從而創造出勝率最高的下法。幫助阿爾法的機器學習成功的是圍棋伺服器KGS(Kiseido Go Server)上的16萬個棋譜和3000萬個圍棋子兒的位置資訊。前面提到的Google翻譯服務,正是因為在過去十年的翻譯資料基礎上構建起了神經網路機器翻譯(GNMT, Google Neural MachineTranslation) 系統,才得以成功。從這些事例中也不難看出,深入研究大資料裡包括何種資料,嚴格遵循大資料處理的一貫性原則,再加上對大資料專案的持續投資,才能夠確保大資料的成功應用。
推動大資料專案,除要有優質的大量資料外,還需要高水平的資料科學家(Data Scientist)。很顯然,即便擁有龐大規模的優質資料,若不加以解析,那麼這些資料也會變成無用之物。優秀的資料科學家可以基於對資料規模、資料汙染程度等特性的充分理解,適時採用適當的方法對資料進行加工與處理,從而生成具有洞察力和預見性的產品。問題是高度專業化的人才培養是一項長期工程,根本無法在短時間內速成。為了能夠著眼長遠,實現大資料產業的長足發展,需在建立人才機制、促進人才隊伍建設的同時,構建起高效的人才管理體系。
大資料應用的目的是否明確?
如同前面所述,在韓國,很多大資料專案只是在突出大資料應用理念,至於大資料應用目的卻經常被忽視或被放在後面。如果大資料分析與應用的目的不明確,那麼該專案就很容易迷失方向而遭到失敗。為此,我們在構想新的大資料專案時,一定要探究該專案的大資料應用目的是否明確。
大資料分析與應用的目的是專案各階段進行重要決策與狀況判斷的基本依據。首先,需根據“明確的大資料應用目的”來判斷資料庫中什麼資料是有用的優質資料。隨著韓國國防領域計算機化、網路化的加快推進,各種資訊系統整體湧現,越來越多的資料在相應的資料庫中不斷積累。當然,這些資料在各自資訊系統中執行是不會有什麼大的問題。但是,從大資料綜合分析角度來看,有必要著眼於“能否生成有意義的結果、是否是可預測資料”的分析目的,重新進行評估判斷。若這一目的不明確,那麼隨著大量異種資料的累加,分析的基礎將會徹底動搖。
大資料應用目的會對“資料的種類和質量是否適當、應選擇何種資料分析技術和資料分析模型”等產生重要影響。舉例來講,明確的大資料分析目的可以成為“以現有資料能否進行分析、是否有必要進一步收集資料”等的判斷基準。
此外,從分析技術層面來講,還能為“以當前技術能否進行分析、隨著資料增加能否提高預測準確度”等的判斷提供有效支援。對上述事項的決策結果,能夠使大資料應用分析的綜合情景具體化。可以講,大資料應用情景可保證專案的整個過程是一定的、具有持續方向性的,這對於結果的有效生成會起到重要作用。從圖1可以看出,大資料分析目的對大資料應用情景的決定過程產生重要影響。
圖1.大資料應用情景分析方向
明確的大資料應用目的,還能夠成為 “專案是否達成第一階段目標、後續專案是否有必要”的判斷標準。如果通過大資料分析生成的預測模型,達到符合專案目的的預測準確度等級,那麼作為與政策決策相關的單個專案,可做出專案結束的決定。如果未達到目標水平,還有一些改進要求,併為此提出提高預測準確度方案,那麼可考慮進一步收集資料等的後續專案。
大資料應用是否有副作用和危險?
大資料分析的終極目的是通過分析,揭示海量資料中的隱藏模式,並加以正確運用。不過,通過大資料分析得到的預測模型等生成物,即便遵循了倫理規則,也不能完全排除被誤用、濫用或惡用的可能性。如果基於大資料分析製成的一定的模型是不透明、不公開的,嚴重威脅人們的生命安全,且存在眾多領域使用的擴張性,那麼這種高危險甚至也可以被稱為大規模殺傷數學武器(WMD:Weapons of Math Destruction)。正因為如此,在大資料應用專案的計劃及實施過程中,需高度警惕真實性風險,並要從源頭起建立風險評估機制。
下面圍繞韓國國防部組織實施的大資料應用前期研究工作中的“軍營安全預測模型開發”專案展開分析。該專案的目的是基於國防研究院(KIDA)新兵人格調查(NMPI:New Military Personality Inventory)的調查資料、陸軍團行政資訊系統中的生活資訊、陸軍憲兵隊調查資料中的事故資訊、調查本部國防幫助熱線的談話內容等,提供各部隊的各階段軍營安全指數,以此來防範重大惡性事故的發生。問題是對於這一預測模型的過度自信及對統計資料的濫用和誤用,有可能會帶來很多副作用。舉例來講,拿到軍營安全指數危險報告的部隊指揮官,有可能會將工作重點放在篩查危險人物上,從而忽略打仗這一部隊的根本職能。此外,為了歪曲和控制軍營安全指數,有可能對不適應軍營生活的新兵重新進行人格調查,或向團行政資訊系統輸入與實際情況完全不同的生活資訊。這種對資料的隨意歪曲和篡改,勢必會醞釀更大的事故或更大的災難。
我們還可以假設一下針對個別官兵危險性的預警預測模型。通常,這種預測模型準確度能達到90%,就可以認為是相當優秀。包括大資料在內的所有預測模型,預測實現100%的準確率是根本不可能的。被預警預測模型識別為事故隱患的個人,往往會因模型的準確性難以消除危險烙印,這反過來又可能會引發部隊內部新的矛盾或使矛盾加深。
基於大資料的預測模型生成物是一種可能性高的科學預測。即便如此,我們也不應全盤接受這一結果。特別是當預測的物件是“人”這種情況時,尤其需要謹慎。大資料分析及基於此的預測模型可能帶來的副作用,應該通過“制訂對大資料分析/應用全過程的管理制度及政策上的管控手段”予以防範。不但如此,需積極適應大資料發展趨勢,持續改進大資料相關制度與政策。
宣告:本文來自知遠戰略與防務研究所,版權歸作者所有。文章內容僅代表作者獨立觀點,不代表安全內參立場,轉載目的在於傳遞更多資訊。如需轉載,請聯絡原作者獲取授權。