1. 程式人生 > >大資料(一) --大資料概述

大資料(一) --大資料概述

大資料興起的背景 --第三次資訊化浪潮

​​在這裡插入圖片描述

技術支撐

  • 硬碟儲存容量增加;

  • CPU計算速度提高;

  • 網路頻寬不斷增加。
    在這裡插入圖片描述

資料產生方式的變革。

在這裡插入圖片描述
感知式系統階段物聯網的大規模普及。(物聯網底層是感知層:RFID,攝像頭,感測器)

物聯網的興起讓我們迎來了大資料時代。

什麼是大資料?

大資料是一個仁者見仁, 智者見智的寬泛概念. 關於大資料的定義有很多, 我們不妨拿來幾個品讀品讀:

亞馬遜大資料科學家John Rauser 認為大資料是任何超過一臺計算機處理能力的資料量. (Big data is any amount of data that’ s too big to be handled by one computer)

在《大資料: 下一個創新, 競爭和生產率的前沿》中, 麥肯錫對大資料定義為: 所謂大資料, 主要是指無法在一定時間內用傳統資料庫工具對其內容進行獲取, 儲存, 管理和分析的資料集.

研究機構Gartner定義: 大資料是指需要新處理模式才能具有更強的決策力, 洞察發現力和流程優化能力的海量, 高增長率和多樣化的資訊資產.

維基百科對大資料的定義則簡單明瞭: 大資料是指利用常用軟體工具捕獲、管理和處理資料所耗時間超過可容忍時間的資料集。 就是說大資料是一個體量特別大,資料類別特別大的資料集,並且這樣的資料集無法用傳統資料庫工具對其內容進行抓取、管理和處理。

大資料大牛張富剛前輩說: 大資料是在短時間內快速地產生海量的, 多種多樣的, 有價值的資料.

無論哪種定義, 都體現出了大資料的四大特性, 即4V–Volume(體量大),Velocity(速度快),Variety(多樣化),Value(價值). 當然, 也有人認為是5V特性, 第五個V是Veracity(真實性).

大資料特性

在這裡插入圖片描述

  • 資料體量巨大. 資料量從TB級別躍升至PB

  • 處理速度快. 需對資料實時分析

  • 資料類別大. 由大量非結構化資料和少數結構化, 半結構化資料組成.

  • 價值密度低,商業價值高.

  • 資料真實性難辨識.

大資料的幾個來源

  • 來自人類活動. 人們通過社會網路、網際網路、健康、金融、經濟、交通等活動過程所產生的各類資料,包括微博、病人醫療記錄、文字、圖形、視訊等資訊。

  • 來自計算機. 各類計算機資訊系統產生的資料,以檔案、資料庫、多媒體等形式存在,也包括審計、日誌等自動生成的資訊。

  • 來自物理世界. 各類數字裝置、科學實驗與觀察所採集的資料。 如攝像頭所不斷產生的數字訊號,醫療物聯網不斷產生的人的各項特徵值,氣象業務系統採集裝置所收集的海量資料等。

大資料帶來思維方式的轉變:

  • 全樣而非抽樣. 可以儲存全部資料,而不用再去做抽樣分析;

  • 效率而非精度. 抽樣由於樣本選取的不同精度有發生變化,全樣分析誤差是多少就是多少,不會被放大;

  • 相關而非因果. 只關注相關性,而非因果關係。

關鍵技術:

     兩大核心:分散式儲存,分散式處理。
  • 分散式儲存:分散式資料庫BigTable,分散式檔案系統GFS

  • 分散式處理:分散式並行處理技術MapReduce

典型計算模式

  • 批處理計算(MapReduce,Spark實時性好於MapReduce)
  • 流計算——實時處理,實時響應,否則失去商業價值(S4,Storm,Flume)
  • 圖計算——社交網路類資料(Google Pregel)
  • 查詢分析計算(Google Dremel,Hive,Cassandra)
    在這裡插入圖片描述