1. 程式人生 > >資料治理:讓資料質量更好(data governance)

資料治理:讓資料質量更好(data governance)

  核心提示:大資料時代資料產生的價值越來越大,基於資料的相關技術、應用形式也在快速發展,開發基於資料的新型應用已經成為高校資訊化建設的一個重點領域。當前各大廠商、使用者都在探索與資料相關的開發技術、應用場景和商業模式,最終目的就是挖掘資料價值,推動業務發展,實現盈利。目前資料應用專案非常多,但真正取得預期效果的專案少之又少,而且開發過程困難重重,其中的一個重要原因就是資料質量問題導致許多預期需求無法實現。如果沒有資料治理,再多的業務和技術投入都是徒勞的,因為很經典的一句話:Garbage in Garbage out。資料治理是保證資料質量的必需手段,從全球範圍來看,加強資料治理提升資料質量已成為企業提升管理能力的重要任務。

  資料治理是一個系統的、大型的、長期的工程,大型企業已經開始了實施,並取得了一定成果,但目前高校在資料治理方面還沒有開始真正意義上的實踐,究其原因,一方面高校還沒有把資料治理的重要性提升到戰略高度,另一方面沒有將資料治理單獨作為課題研究,沒有形成系統的實施方法論。本文從管理和技術兩方面出發探索適合高校資訊化建設的資料治理方法,形成包含組織、制度、標準、流程、安全、技術等內容的資料治理方案,從而打造高校綠色資料生態環境,為資料應用提供基礎保障。

  資料治理概念

  資料治理並不是一個新生事物,可以說,有資料的地方就存在資料治理,只不過隨著資料應用的迅猛發展將它提到了一個高度,作為一個獨立的研究領域。資料治理並沒有標準的、嚴格的定義,概況地講,所有為提高資料質量而展開的業務、技術和管理活動都屬於資料治理範疇。

  資料治理的英文是Data Governance,《DAMA 資料管理知識體系指南》一書給出的定義:資料治理是對資料資產管理行使權力和控制的活動集合。資料治理職能指導其他資料管理職能如何執行,圖1說明了資料治理與其他幾個資料管理職能的關係。

  資料治理是技術與管理相結合的一套持續改善管理機制,貫穿在資料管理的整個過程中,通常包括了組織架構、政策制度、技術工具、資料標準、流程規範、監督及考核等方方面面,將其他幾個資料管理職能貫穿、協同在一起,讓企業的資料工作成為一個有機整體而不是各自為政。資料治理涉及的IT技術主題眾多,包括元資料管理、主資料管理、資料質量、資料整合、監控與報告等。

  資料治理體系框架

  僅僅依靠技術手段,以建設系統的方式是難以有效解決資料治理面臨的所有問題。構建資料治理體系是資料治理工作的基礎,為了有序實施資料治理,應採用規劃先行的原則,制定適合高校業務特點的管理流程,選擇可行的技術方案和實施工具,明確資料治理的工作機制和工作內容,穩步推進資料治理各項工作,資料治理體系框架如圖2所示。

  戰略:資料治理是在高校發展戰略和規劃的指導下進行實施的,這些戰略和規劃包括業務發展目標、IT規劃以及資料治理相關的發展規劃。

  機制:機制是資料治理工作實施的基礎保障,通過組織、制度、流程的建設和執行得以落實。機制是資料治理工作的重點,資料治理執行效果就是機制落實的效果。

  專題:資料治理專題是資料治理的工作內容,包括資料標準、資料治理、元資料、主資料、資料生命週期等方面。

  實施:資料治理工作最終在相關制度、規範和流程下通過資料治理組織藉助技術手段和管理手段來實現。包括系統開發階段為提高資料質量進行的校驗設計;系統日常運維工作;資料分析應用階段的資料整合;資料質量監控等。

  資料治理措施

  管理措施

  1.提高全面思想認識

  毋庸置疑,資料是高校的寶貴資產,各高校已經意識到資料質量的重要性,但是並沒有將資料治理提到戰略高度,資訊化建設的重點仍然是應用系統建設和運維。資料治理是一個系統工程,需要管理層、系統開發人員、系統使用人員、系統維護人員多方協作才能進行。目前最大的問題就是各方人員對資料治理的認識還處於盲區,他們並沒有意識到資料治理的重要性,因此資料治理首先要從上到下全面提高思想認識,保證在系統建設、系統執行、系統維護各個環節都能重視資料治理。

  2.成立資料治理組織

  健全的資料治理組織是全面開展資料治理工作的基礎,資料治理組織應包括管理人員、業務人員和技術人員,缺一不可。資料治理組織可以設定三種角色,資料治理委員會、資料治理業務組、資料治理技術組。

  資料治理委員會:由校領導、IT部門負責人和業務部門負責人組成,負責制定資料治理的目標、制度、規範、流程、標準等,溝通協調,解決相關人員責、權、利問題,推行資料治理文化。

  資料治理業務組:由業務部門業務專家、業務部門系統管理員組成,負責業務系統引數、基礎資料維護,保證系統正常使用;負責稽核、檢查、整改業務資料,在資料產生源頭提高資料質量。

  資料治理技術組:由IT部門的相關技術人員組成,包括系統開發人員、資料治理人員、資料庫管理員。系統開發人員負責系統資料錄入功能符合資料校驗標準和資料治理標準;資料治理人員負責開發資料質量檢測規則、監控資料質量、批量修改資料等工作;資料庫管理員負責系統資料的備份、恢復、安全、審計等工作。

  3.建立資料標準體系

  一般來說,資訊化建設應遵循標準先行的原則,在應用系統建設初期就應該制定高校內部資料標準體系,保證各業務部門、各業務系統使用相同的資料標準,提高部門間、系統間資料共享能力,避免形成資訊孤島。資料標準體系包括資料標準、技術標準、管理標準、資料質量標準等內容,可以成立由業務人員和技術人員組成的資料標準制定小組,負責資料標準體系的制定、維護、宣傳、解釋等工作。

  4. 制定資料質量管控規範

  由於高校缺乏明確的資料質量管控規範、流程,導致資料治理相關人員職責劃分不清,缺乏專職人員在不同階段對資料質量負責。通過制定資料質量管控規範,使相關人員明確在資料產生、儲存、應用整個生命週期中資料治理包含的工作內容和工作流程,形成校內統一管理體系。為了提高資料治理執行效率,有必要建立資料治理績效考核,檢驗資料治理各個環節的效果。

  5. 制定資料安全管理制度

  保障資料安全是高校資訊化的首要工作,高校應該制定貫穿於資料生命週期的資料安全管理制度,包括資料生成及傳輸、

  資料儲存、資料處理及應用、資料銷燬四個方面。安全管理制度主要用來規範員工在日常工作中安全地使用資料,並且指導技術人員如何實施資料安全工作。

  技術措施

  1.構建校級資料架構

  高校構建的資訊系統以滿足功能應用為主,如果沒有整體資料架構,應用系統就沒有資料標準可參考,不可避免地會出現不同的應用系統使用不同的資料標準和資料庫,導致資料交換、資料共享困難,資料冗餘、資料完整性、資料一致性等問題突出。

  理想情況下,高校在資訊化初期就應該規劃整體資料架構。一個完整的高校資料架構主要包括:資料標準、資料庫產品線、主資料、元資料、資料質量、資料安全、資料交換、資料倉庫。每一部分都需要作為獨立的專題去建設,而且必須是技術與管理相結合的建設過程,最終形成高校全域性資料架構。

  2.加強資訊系統設計

  產生資料質量問題的第一個環節就是生成資料的源系統,在資料來源頭解決資料質量問題是提高資料質量非常有效的措施。加強資訊系統設計和開發可以通過系統功能自動地規避大量資料質量常見問題。具體包括以下三個方面:

  細化需求,在需求分析階段增加對資料質量的詳細要求;

  加強資料庫設計,使用3NF正規化構建業務系統資料模型可以通過資料庫有效解決資料冗餘、不一致等問題;

  系統開發階段加強資料錄入功能的設計和開發,提高介面友好性和校驗功能,可以有效解決資料完整性、時效性等問題。

  3.建立主資料中心

  學校內部不同應用系統、不同部門間需要共享資料的現象非常普遍,建立主資料中心不僅能避免各應用系統相互共享資料形成網狀結構,同時能夠保證對外提供準確、一致的資料。一般地,主資料是描述核心業務實體的資料,如教師、學生、科研成果、資產等,這些資料變化相對緩慢並通常跨業務重複使用。這裡我們結合實際需求情況擴大了主資料的範圍,凡是需要交換、共享的資料都納入到主資料範圍,形成全校範圍內一致的、完整的、準確的核心業務資料,統一由主資料中心完成對外提供資料的任務。建立主資料中心不僅僅是技術工作,除開發、維護外還需要制定開發規範、管理規範、管理流程,共同規範主資料的使用。

  4.搭建資料質量監控平臺

  通過搭建資料質量監控平臺可以實現資料質量自動檢查、監控,平臺包括資料質量檢查規則庫、規則執行引擎、資料質量報告、報告推送功能。平臺的核心是規則庫,與業務無關的規則由技術人員獨立開發,與業務相關的規則需要技術人員和業務人員共同確定檢查規則,然後編寫規則指令碼。規則執行引擎可以定時批量執行檢查規則,及時發現數據質量問題,將資料質量報告第一時間推送給業務人員,有助於及時糾正問題資料。

  5.實施資料安全工作

  資料安全實施工作在資料安全管理制度的指導下執行,由技術人員完成,主要包括資料備份、恢復、脫敏、監控、審計等。

  資料治理是高校資訊化建設中提高資料應用水平和資訊化管理水平的有效手段。資料治理是一項長期系統工程,貫穿於整個資料生命週期,不僅需要藉助技術手段,更需要完善資料治理制度,包括規劃、組織、機制、規範、流程等,只有全校各級人員高度重視和積極參與,逐步形成資料治理文化,資料治理才能取得成效,資料才能發揮更大的價值。

  (作者單位為上海財經大學資訊化辦公室)

相關推薦

資料治理資料質量(data governance)

  核心提示:大資料時代資料產生的價值越來越大,基於資料的相關技術、應用形式也在快速發展,開發基於資料的新型應用已經成為高校資訊化建設的一個重點領域。當前各大廠商、使用者都在探索與資料相關的開發技術、應用場景和商業模式,最終目的就是挖掘資料價值,推動業務發展,實現盈利。目前資料應用專案非常多,但真正取得

資料治理那些年,我們一起踩過的坑

寫在前面: 這是一個系列文章,沉澱了我在資料治理領域的一些實踐和思考。共分為5篇。分別是: 一、資料治理:那些年,我們一起踩過的坑 主要講講資料治理工作中常見的一些誤區。 二、要打仗,你手裡先得有張地圖:資料治理之元資料管理 這一篇講講元資料的概念和具體應用場景。 三、不忘初

學習大資料自學靠譜還是培訓一些

學習大資料自學靠譜還是培訓更好一些?學習大資料的想法是好的,至於學習大資料的途徑是自學還是培訓,我認為這要具體問題具體分析了。學習大資料自學可以,但要保證你自學能力強、自我約束能力強、同事你能知道該學習哪些課程、哪些課程是必須學的是核心的等等,如果不滿足這些條件,建議還是參加大資料培訓筆記靠譜。

資料丨神州資訊“智慧資料工廠V1.0” 資料變得有價值

神州資訊“智慧資料工廠V1.0”通過中國軟體評測中心專業評測,被授予“大資料基礎設施類產品認定證書”,大資料能力獲得充分肯定。 ”   在當前數字化轉型的背景下,挖掘資料價值並使其有效落地,真正服務國計民生,已成為各家IT服務商的必爭之地。神州資訊智慧資料工廠([email&#

阿里雲大資料工具,海底撈懂你

今年的9月26日,海底撈正式登陸香港資本市場,宣告上市。   擁有“你學不會的海底撈式優質服務”等軟實力外,這家餐飲業創新的標誌性企業,已經通過和阿里雲等企業合作,透過先進的網際網路技術開始新的蛻變。 在一整套技術改造之下,長期沉澱的3000萬會員,正在成為海底撈精細化運營的“

資料時代資料需謹慎分析

進入大資料時代後,資料統計、分析被視作兼具“前景”和“錢景”的行業。一時間,擅長髮布各種資料的機構和單位如雨後春筍般層出不窮。可是,大資料真的那麼可信嗎?之所以有這麼一問,是因為近期連續遇到幾起資料“烏龍”事件。例如,某網路平臺釋出報告稱,平安、民生、廣發、天津等4家銀行在上

2017中國網際網路消費生態大資料報告人工智慧賦能多產業!

2017年12月20日,由第一財經、第一財經商業資料中心(CBNData)主辦的“未來狂享曲·

從0到1打造資料可信的資料產品解析資料治理在過程可信變革中的運作流程

摘要:本文針對“資料牽引改進,工具固化規範”這一思路在業務團隊落地過程中的動作流程進行詳細闡述,並明確了支撐整個流程的關鍵角色定義和組織運作形式。 目的 為實現雲服務開發的過程可信,需要基於資料對各個服務產品部的可信變革動作進行資料採集、進展可視、目標牽引、能力評估,最終用資料反映目標達成。與傳統的“基於資料

Mac終端解壓解壓逼格

rar文件解壓 mac下解壓rar文件 解壓rar文件 rar文件怎麽解壓 第一步步驟就是:先到https://www.rarlab.com/download.htm 這個網站下載所需要的工具:對對對!就是我使用紅色框起來這個!第二步:如果是是mac的話一般情況下都是下載下來了就直接解壓的,因

資料結構基本資料概念

嚶嚶嚶,不知道更新啥了,就更新一下我複習的東西吧,感覺還挺有用的。 1,資料結構+演算法=程式設計 2,資料結構:資料元素之間存在的關係。 3,演算法:是一個有窮規則的集合,其規則確定一個解決某一特定型別問題的操作序列。 4,資料元素:表示一個事務的一組資料,是資料的基本單位。

資料結構八大資料結構分類

目錄 1、陣列 2、棧 3、佇列 4、連結串列 5、樹 6、散列表 7、堆 8、圖 @ 資料結構分類 資料結構是指相互之間存在著一種或多種關係的資料元素的集合和該集合中資料元素之間的關係組成 。 常用的資料結構有:陣列,棧,連結串列,佇列,樹,圖,堆,散列表等,如圖所示: 1、陣列 陣列是可以再記憶體

2/2 資料獲取網路資料的獲取

o. 抓取 1. urllib內建模組 — urllib.request 2. Request第三方庫 **Request庫:** Requests 庫是最簡單、方便和人性化的Python HTTP第三方庫。Requests 官網:http://www.pyt

Django vs SQLAlchemy哪個 Python ORM

什麼是 ORM? 在介紹 Python 的 ORM 框架(Django 和 SQLAlchemy)不同之前,我們先要確保完全理解 ORM 框架的用途。 ORM 代表物件關係對映(Object Relational Mapping)。讓我們依次看看這三個單詞,它們正好解釋了 OR

2019 年,19 種方法自己成為的 Node.js 工程師

原文作者:Yoni Goldberg 譯者:UC 國際研發 Jothy 寫在最前:歡迎你來到“UC國際技術”公眾號,我們將為大家提供與客戶端、服務端、演算法、測試、資料、前端等相關的高質量技術文章,不限於原創與翻譯。 編者按:文中作者為大家提供了19種方法,大多數方法後面都提供了例子,如果你對這些例

FreeBSD 2018 最新報告效能提升,的硬體支援

   FreeBSD 專案的最新狀態報告是 2018年1月至 9 月。報告涵蓋了今天釋出專案的大部分資訊,不包括 Q4 季度,本月早寫時候釋出的 FreeBSD 12.0 也包括在這份報告中。 對於 FreeBSD 來說,今年是輝煌的一年,FreeBSD 在效能上得到提升。在硬

python資料分析會員資料執行(下)——基於AdaBoost的營銷響應預測

何為AdaBoost Adaboost是一種迭代演算法,其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器),然後把這些弱分類器集合起來,構成一個更強的最終分類器(強分類器)。其演算法本身是通過改變資料分佈來實現的,它根據每次訓練集之中每個樣本的分類是否正確,以及上次的總體分類的

方圖金融世界透明

美金的加密貨幣基礎市場已經不可逆了,它必然會作為一種新型的另類投資方式加入到主流機構和個人客戶的大類資產配置範圍中。但即使不可逆,它目前仍然是不成熟的。包括專業級的交易軟體、行情商、託管機構、信披流程、衍生品配套設施等,只有當這些全部完成以後,這個市場才會從以散戶為主的市場變成以投資機構為主

資料開發實時資料平臺和流計算

大資料開發     1、實時資料平臺整體架構          實時資料平臺的支撐技術主要包含四個方面:實時資料採集(如Flume),訊息中介軟體(如Kafka), 流計算框架(如Storm, Spark, Flink和Beam),以及資料實時儲存(如列

IntelliJ IDEA

IntelliJ IDEA,記錄一些目前覺得好用的東西。 IDEA外掛 mybatis plugin 有免費版,也有破解版,搜一下都有。 這個外掛讓mybatis的自動提示功能更強大,寫在xml裡的sql出錯率更少。並且和java檔案融合的很

資料儲存資料儲存系統(1)--- 分散式檔案系統

分散式檔案系統一、分散式系統概念(1)分散式系統型別:Client/Server、P2P(Peer-to-Peer)、Master/Worker(2)故障模型(Failure Model):Fail stop:出現故障時,程序停止/崩潰Fail slow:出現故障時,執行速度