1. 程式人生 > >「數據治理那點事」系列之三:不忘初心方得始終,數據質量管理要穩住!

「數據治理那點事」系列之三:不忘初心方得始終,數據質量管理要穩住!

規劃 分組 質量 管理 決策者 出發 遇到 例子 評估

技術分享圖片

文 | 樂天(原創)未經許可,不可轉載。

編輯 | 劉能 碳酸

本文約 3209 字,預計閱讀時間 9 分鐘

作者簡介:蔣珍波(樂天),6 年+ 大數據咨詢經驗,擅長為客戶提供科學合理的大數據解決方案。目前擔任數瀾科技咨詢專家,負責數瀾大數據平臺售前咨詢。

本文主要講述數據治理中的重要工作:數據質量管理,從以下幾個角度展開具體講解:

(1)數據質量管理的目標

(2)質量問題產生的根源

(3)數據質量的評估

(4)數據質量管理的流程

(5)數據質量管理的取舍

一、數據質量管理的目標

數據質量管理主要解決「數據質量現狀如何,誰來改進,如何提高,怎樣考核」的問題。

「不忘初心方得始終」,在最開始的關系型數據庫時代,做數據治理最主要的目的,就是為了提升數據質量,讓報表、分析、應用更加準確。時至今日,雖然數據治理的範疇擴大了很多,我們開始講數據資產管理、知識圖譜、自動化的數據治理等等概念,但是提升數據的質量,依然是數據治理最重要的目標之一。

為什麽數據質量問題如此重要?

因為數據如果要發揮其價值,關鍵在於其數據質量的高低,高質量的數據是一切數據應用的基礎。假設一個組織根據劣質的數據分析業務、進行決策,那還不如沒有數據。因為通過錯誤的數據分析出的結果往往會帶來「精確的誤導」,對於任何組織來說,這種「精確誤導」都無異於一場災難。

技術分享圖片

據統計,數據科學家和數據分析員每天有 30% 的時間浪費在了辨別數據是否是「壞數據」上,在數據質量不高的環境下,做數據分析可謂是戰戰兢兢。可見數據質量問題已經嚴重影響了組織業務的正常運營。通過科學的數據質量管理,持續地提升數據質量,已經成為組織內部刻不容緩的優先任務。

二、數據質量問題從何而來?

做數據質量管理,首先要搞清楚產生數據質量問題的原因。原因有多方面,比如在技術、管理、流程方面都會碰到。但從根本上說,產生數據質量問題的大部分原因在業務上,也就是管理不善。許多表面上的技術問題,深究下去,其實還是業務問題。

技術分享圖片

我在給客戶做數據治理咨詢的時候,發現很多客戶很難發現產生數據質量問題的根本原因,僅僅局限於從技術角度來解決問題,希望通過購買某個工具就能解決質量問題,這當然達不到理想的效果。通過和客戶交流以及雙方共同分析之後,大部分組織都能認識到數據質量問題產生的真正根源,開始從業務方向著手解決數據質量問題了。

從業務角度著手解決數據質量問題,重要的是建立一套科學、可行的數據質量評估標準和管理流程。

三、數據質量評估的標準

當我們談到數據質量管理的時候,我們必須要有一個數據質量評估的標準。有了這個標準,我們才能知道如何評估數據的質量,才能把數據質量量化,從而得出改進的方向、比較改進後的效果。目前業內認可的數據質量的標準有:

技術分享圖片

以上數據質量標準只是一些通用的規則,這些標準是可以根據數據的實際情況和業務要求進行擴展的,如交叉表校驗等。

四、數據質量管理流程

要提升數據質量,需要以問題數據為切入點,註重問題的分析、解決、跟蹤、持續優化、知識積累,形成數據質量持續提升的閉環。

首先需要梳理和分析數據質量問題,摸清楚數據質量的現狀;其次針對不同的質量問題選擇適合的解決辦法,制定出詳細的解決方案;同時要註重問題的認責,追蹤方案執行的效果,監督檢查,持續優化;最後形成數據質量問題解決的知識庫,以供後來者參考。上述步驟不斷叠代,形成數據質量管理的閉環。
技術分享圖片

很顯然,要管理好數據質量,僅有工具支撐是遠遠不夠的,必須要組織架構、制度流程參與進來,做到數據的認責,數據的追責。

五、數據質量管理的取與舍

企業也好,政府也好,從來不是生活在真空之中,而是被社會緊緊地包裹。解決任何棘手的問題,都必須考慮到社會因素的影響,做適當的取舍。

第一個取舍:數據質量管理流程。前面講到的數據質量管理流程,是一個相對理想的狀態,但是在不同的組織內部,實施的力度都是不同的,以數據追責為例:在企業內部推行還具有一定的可行性,但是對於政府而言就很難適用。因為政府部門的大數據項目,牽頭單位無論是誰,很可能沒有相關的權限。遇到這種問題,我們只能迂回地做些事情,盡量彌補因為某個環節缺失而帶來的不利影響,比如和數據提供方一起建立起數據清洗的規則,對來源數據做清洗,盡量達到可用的標準。

數據追責的例子:你很難想像市經信委去跟市政府辦公廳進行數據質量的問責,這與數據治理的建設方在整個大的組織體系中的話語權有很大的關系,這也就是我們做數據治理必須接受的現實。

第二個取舍:不同時間維度上的數據采取不同的處理方式。從時間維度上劃分,數據主要有三類:未來數據、當前數據、歷史數據。在解決不同種類的數據質量問題時,需要考慮取舍之道,采取不同的處理方式。

  1. 歷史數據

當你拿著一堆歷史問題數據,找信息系統的負責人給你整改,對方通常不會給你好臉色看,可能會以「當前的數據問題都處理不過來,哪有時間給你處理歷史數據的問題」為理由,拒你以千裏之外。這時候即使你找領導協調,一般也沒有太大的作用。因為這確實是現實情況:一個組織的歷史數據通常是經年累月的積累,已經是海量的規模,很難處理。那麽難道就沒有更好的辦法了嗎?——對於歷史數據問題的處理,我們可以發揮技術人員的優勢,用數據清洗的辦法來解決;對於實在清洗不了的,我們要讓決策者判斷投入和產出的效益比。

從另一個角度來看:數據的新鮮度不同,其價值往往也有所區分。一般來說,歷史數據的時間越久遠,其價值越低。所以,我們不應該把最重要的資源放在歷史數據質量的提升上,而是應該更多地著眼於當前和未來即將產生的數據。

  1. 當前數據

當前數據的問題,需要我們通過本文第四個章節講過的——梳理和發現問題,分析問題,解決問題,問題認責、跟蹤和評估等幾個流程環節來解決,管理過程中必須嚴格遵循流程,避免臟數據繼續流到數據分析和應用環節。

  1. 未來數據

管理未來的數據,一定要從數據規劃開始,從整個組織信息化的角度出發,規劃組織統一的數據架構,制定出統一的數據標準。借業務系統新建、改造或重建的時機,在創建物理模型、建表、ETL開發、數據服務、數據使用等各個環節遵循統一的數據標準,從根本上提升數據質量。這也是最理想、效果最好的數據質量管理模式。

通過對不同時期數據的不同處理方式,能做到事前預防、事中監控、事後改善,從根本上解決數據質量問題。

六、總結

提升數據質量,是數據治理最重要的目標之一。我們需要從三個方面著手解決數據質量問題:弄清楚數據質量問題產生的根源,建立一套科學合理的評估標準和管理流程,考慮到組織和數據的現狀。

數瀾科技的核心產品:一站式大數據平臺「數棲」,集成了完善的數據質量管理功能,可以對表級、字段級的數據建立稽核規則,執行檢查,生成數據質量報告,並融入到數據資產管理的閉環之中,幫助客戶循環不斷地提升數據質量。

<END>

數棲大會重磅來臨!

(點擊圖片掃碼,立即報名!)
技術分享圖片

「數據治理那點事」系列之三:不忘初心方得始終,數據質量管理要穩住!