1. 程式人生 > >阿裏前大數據架構師:如何快速的成長為一名優秀大數據架構師

阿裏前大數據架構師:如何快速的成長為一名優秀大數據架構師

編寫 pig nbsp 企業信息 spark -c 自動 關註 規劃

技術分享圖片

什麽是大數據架構師: 圍繞大數據系平臺系統級的研發人員, 熟練Hadoop、Spark、Storm等主流大數據平臺的核心框架。深入掌握如何編寫MapReduce的作業及作業流的管理完成對數據的計算,並能夠使用Hadoop提供的通用算法, 熟練掌握Hadoop整個生態系統的組件如: Yarn,HBase、Hive、Pig等重要組件,能夠實現對平臺監控、輔助運維系統的開發,現在向大家推薦一個大數據資源共享群:593--188--212,裏面會有學習路線,相關的學習資料,算法學習資料,免費的視頻直播課等等,現在給大家分享成為大數據架構師必須要掌握以下四點

1、為什麽需要構建數據架構

數據標準不一致(列名相同數據類型不同、列明相同數據類型相同長度不一、列名沒有統一標準識別困難、列名定義不統一類型不一致長度不相同、中文名稱相同英文縮寫不同或英文縮寫相同中文名稱不同)

數據標準化管理提些(構建動態單詞庫,標準遵循度自動檢測,標準自動應用,標準管理流程化,構建知識庫基礎內容,為大數據應用提供統一標準)

標準化管理實施成果,用語校驗機制(申請、校驗、標準知識庫、檢驗結果報告)

標準對象的自動應用(基於底層知識庫將邏輯數據模型轉換成相應的物理模型,自動轉化)

數據模型管理混亂(校驗較差、邏輯結構不一樣、反復增加相同表結構、表真正字段沒有進行註釋)——設計、校驗、擴展

數據模型骨骼

數據模型優化方式(數據庫參數優化10%、執行計劃優化(hint)30%、索引和SQL優化50%、數據模型的優化80%);

SQL語句編寫水平不高導致出現嚴重性能問題(對開發人員執行計劃不熟悉);

上線之前的審計體系(與上線之前測試工作並行進行,抓去SQL及執行計劃)

相對復雜的數據處理能力欠缺

數據質量查需要執行數據質量管理(質量標準及診斷對象定義、剖析、BR定義、數據質量診斷、數據質量改進);

技術分享圖片

2、如何構架數據架構

開發需求、應用架構、運維架構、技術規劃-》數據架構、業務架構、技術架構、應用架構;

數據架構管理對象、數據架構管理流程、數據架構管理組織、管理系統(數據質量管理系統、配置管理系統);

數據架構各個角色及人員

數據架構部門的角色及工作(數據架構(構建數據架構、制定管理體系、標準化)、數據模型(概念、物理、邏輯模型設計、培訓)、程序開發(開發技術支持、形狀管理、編寫核心SQL)、數據遷移(遷移技術支持)、測試及優化(TUNING、設計最優索引、提出問題解決方案))

技術分享圖片

3、數據架構管理體系

規範、政策、管理、標準管理、結構管理、審核及管理、企業信息系統;

人員培養、組織形成、工具采購、管理認同(上層關註度);

來自開發(設計爭執)、運維(技術反對)、領導方面阻力(短期難以見成效);

數據架構是企業架構中的一個重要組成部分(開發、應用、技術、數據);

內部工作流程(需求登錄、適當與需求進行技術講解、適當了解模型、進行數據需求進行數據模型進行重新設計及變更、數據架構師進行模型審計與審批、自動生成DDL(DBA)、基於業務規則校驗數據質量影響、數據錯誤分析及清洗、相關程序分析):人+規則+技術;

技術分享圖片

4、數據架構師成長

認知(定義、從事工作、能力、位置與職業生涯);

學習(途徑、培訓及書籍、經驗學習、相關活動);

實戰(理論落地、擴大影響裏、星星之火),可從模型審計及SQL優化著手;

成熟(穩定數據架構在企業系統設計、開發、運維地位,形成四足鼎立);

學習技術(企業架構、數據質量管理、數據需求分析、數據標準化、數據建模、數據庫設計及應用)

阿裏前大數據架構師:如何快速的成長為一名優秀大數據架構師