大資料技術學習路線指南:大資料的內幕
這是在真正開始學習大資料之前對大資料的一個概覽。為的是讓我們成為大資料的主人。
大資料執行機制這是對大資料執行機制的概覽,如果你閱讀過上一篇(OODA),就會感覺非常熟悉。不錯,他們在概念上是如出一撤的!不過實際操作卻又有巨大的不同。在這裡還是要推薦下我自己建的大資料學習交流群:199427210,群裡都是學大資料開發的,如果你正在學習大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料軟體開發相關的),包括我自己整理的一份2018最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴加入。
收集資料:
大資料的第一站就是收集和儲存海量資料(公開/隱私)。現在每個人都是一個巨大的資料來源,通過智慧手機和個人筆記本釋放出大量的個人行為資訊。獲取資料似乎已經變得越來越容易,資料收集這一模組最大的挑戰在於獲取海量資料的高速要求以及資料的全面性考慮。
清洗資料:
傳統商業智慧在資料清洗處理的做法(ETL)是,把準確的資料放入定義好的格式中,通過基礎的抽取統計生成高維度的資料,方便直接使用。然而大資料有個最突出的特徵——資料非結構化或者半結構化。因為資料有可能是圖片,二進位制等等。資料清洗的最大挑戰來了——如何轉化處理大量非結構資料,便於分散式地計算分析。
硬體:
這是大家都很熟悉的概念,和大資料相關的是虛擬化。主要包括儲存虛擬化,計算虛擬化。因此又說虛擬化儲存和雲端計算是大資料的“左膀右臂”!!大資料還需要支援多種型別的資料庫,因此一個支援擴充套件的資料倉庫是大資料中的基礎。
多平臺與多架構並行使用:
大資料處理需要多平臺和多架構。這是由大資料的快速響應以及多維度分析所決定的特徵。通常大資料會把一個任務拆分成多個極小的子任務交由不同的伺服器來並行處理,最終由任務排程系統負責彙總分析計算結果。這也是美國谷歌公司需要用到上百萬伺服器的原因。
機器學習與人類判斷:
“一拳難敵眾手”,面對似乎處理不完的海量資料,需要機器來幫助我們一起處理。機器學習指的是不斷從大資料分析中吸收特徵資料,成為我們用來分析資料的關鍵參考指標!當然很多時候機器學習有可能會被誤導,因此需要人類來判斷機器學習的結果是否符合預期,以及進一步完善機器學習的結果!!
分享與反饋:
隨著大資料分析結果的產生,決策者需要的旺旺不是一堆僵硬的資料,而是一張直觀動態的決策建議檢視。並且在決策之後,需要一個執行反饋系統來評估大資料分析結果的準確性。不斷地去優化大資料分析的架構和演算法!使得大資料架構更加智慧!!
大資料現已是時代進步的產物,大勢所趨,讓我們成為真正的高薪技術型人才