1. 程式人生 > >帶你瞭解什麼是大資料

帶你瞭解什麼是大資料

 大資料(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。

 在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大資料時代》中大資料指不用隨機分析法(抽樣調查)這樣捷徑,而採用所有資料進行分析處理。大資料的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。

在這裡我還是要推薦下我自己建的大資料學習交流裙:805127855, 裙 裡都是學大資料開發的,如果你正在學習大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料開發相關的),包括我自己整理的一份2018最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴。
 
 

  對於“大資料”(Big data)研究機構Gartner給出了這樣的定義。“大資料”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的資訊資產。

 

  麥肯錫全球研究所給出的定義是:一種規模大到在獲取、儲存、管理、分析方面大大超出了傳統資料庫軟體工具能力範圍的資料集合,具有海量的資料規模、快速的資料流轉、多樣的資料型別和價值密度低四大特徵。

 

  大資料技術的戰略意義不在於掌握龐大的資料資訊,而在於對這些含有意義的資料進行專業化處理。換而言之,如果把大資料比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對資料的“加工能力”,通過“加工”實現資料的“增值”。

 

  從技術上看,大資料與雲端計算的關係就像一枚硬幣的正反面一樣密不可分。大資料必然無法用單臺的計算機進行處理,必須採用分散式架構。它的特色在於對海量資料進行分散式資料探勘。但它必須依託雲端計算的分散式處理、分散式資料庫和雲端儲存、虛擬化技術。

 

  隨著雲時代的來臨,大資料(Big data)也吸引了越來越多的關注。分析師團隊認為,大資料(Big data)通常用來形容一個公司創造的大量非結構化資料和半結構化資料,這些資料在下載到關係型資料庫用於分析時會花費過多時間和金錢。大資料分析常和雲端計算聯絡到一起,因為實時的大型資料集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。

 

  大資料需要特殊的技術,以有效地處理大量的容忍經過時間內的資料。適用於大資料的技術,包括大規模並行處理(MPP)資料庫、資料探勘、分散式檔案系統、分散式資料庫、雲端計算平臺、網際網路和可擴充套件的儲存系統。

 

  大資料包括結構化、半結構化和非結構化資料,非結構化資料越來越成為資料的主要部分。據IDC的調查報告顯示:企業中80%的資料都是非結構化資料,這些資料每年都按指數增長60%。

大資料就是網際網路發展到現今階段的一種表象或特徵而已,沒有必要神話它或對它保持敬畏之心,在以雲端計算為代表的技術創新大幕的襯托下,這些原本看起來很難收集和使用的資料開始容易被利用起來了,通過各行各業的不斷創新,大資料會逐步為人類創造更多的價值。

 

  其次,想要系統的認知大資料,必須要全面而細緻的分解它,著手從三個層面來展開:

 

  第一層面是理論,理論是認知的必經途徑,也是被廣泛認同和傳播的基線。在這裡從大資料的特徵定義理解行業對大資料的整體描繪和定性;從對大資料價值的探討來深入解析大資料的珍貴所在;洞悉大資料的發展趨勢;從大資料隱私這個特別而重要的視角審視人和資料之間的長久博弈。

 

  第二層面是技術,技術是大資料價值體現的手段和前進的基石。在這裡分別從雲端計算、分散式處理技術、儲存技術和感知技術的發展來說明大資料從採集、處理、儲存到形成結果的整個過程。

 

  第三層面是實踐,實踐是大資料的最終價值體現。在這裡分別從網際網路的大資料,政府的大資料,企業的大資料和個人的大資料四個方面來描繪大資料已經展現的美好景象及即將實現的藍圖。