William McKnight關於資料平臺和建立現代資料架構的見解
在上週舉行的ofollow,noindex" target="_blank">資料架構2018年峰會 上,William McKnight就使用不同的資料平臺建立現代資料架構做了主旨演講 。
他以討論組織的資料成熟度和業務成功之間的高度相關性開始了他的演講。組織的資料架構越成熟,業務就越成功。成熟度較低的組織往往會把資料分散於不同的資訊孤島中。他分享了一些來自2018年“網際網路分鐘(Internet Minute)”中所發生的事情的統計資料,在網際網路上每分鐘傳送1億8700萬封電子郵件和1800萬條簡訊,進行370萬次搜尋查詢等等。
人工智慧(AI)是一股顛覆性的力量,而資料則是這場革命的基石。行業中出現了新的資料集:生物資料(Bio Data)。如果將生物資料和環境資料(如位置等)結合在一起,那麼你將擁有進行資料分析的所有信息。
他談到了資料培養和像資料倉庫(data warehouse)和資料湖(Data Lake) 這樣的解決方案如何幫助完成資料工作。資料架構師也需要在HDFS 和雲端儲存之間做出選擇。HDFS具有更好的查詢效能,而云儲存的擴充套件性、永續性和可用性更好,並且成本更低。
通過比較關係資料庫和nosql資料庫的資料大小和工作負載複雜性,McKnight討論了即可使用的大資料平臺的選擇。
另外,他也談到了SQL" rel="nofollow,noindex" target="_blank">NewSQL 資料庫,該資料庫可擴充套件、相容ACID並支援分片。這些資料庫正被用於資本市場資料輸入、金融交易、電信記錄流和欺詐檢測。
資料庫的雲部署提供了一些好處,包括按需和自助服務資料管理、廣泛的網路訪問、資源彙集、快速彈性和可測量的服務。
傳統的ETL技術不足以用於企業範圍內執行的資料平臺。有各種各樣的資料來源,並且資料是實時流式傳輸的。資料架構應該考慮這些需求的流處理 。
企業資料虛擬化提供了對所有結構化和半結構化資料持續及時的訪問,這些資料來自組織內不同的資料來源,如資料倉庫、市場、多維資料集、操作資料儲存(operational data stores,簡稱ODS)、事務源和檔案系統。
他建議,資料專業人員在這次資料架構轉型旅程中進行他們的挑戰,應該做好進行長期戰役的準備,可能會失敗幾次才能最終獲得成功。將您的資料體系結構工作與應用程式預算和路線圖專案結合起來,以便在資料架構實施方面取得進展。
McKnight對其演講進行了總結,建議資料專業人員在需要高效能的資料管理解決方案的地方考慮使用記憶體資料庫 ,並考慮未來使用GPU資料庫 和混合資料庫。
閱讀英文原文:William McKnight on Data Platforms and Creating a Modern Data Architecture
感謝冬雨對本文的審校。