1. 程式人生 > >《Hadoop金融大數據分析》讀書筆記

《Hadoop金融大數據分析》讀書筆記

文本 筆記 分析 velocity 網絡數據 轉換 als 傳統 不同

《Hadoop金融大數據分析》 Hadoop for Finance Essentials

使用Hadoop,是因為數據量大
數據量如此之多,以至於無法用傳統的數據處理工具和應用來處理的數據稱主大數據

3V定義:即“大量Volume,多樣Variety,高速Velocity是與大數據相關的三個屬性或維度。
大量指的是數據的量很大,
多樣指的是數據的類型很多,
高速指的是數據處理的速度很快


對於一家處理GB級數據的小公司來說,TB級的數據可能被認為是大數據,
對於處理TB級數據的大公司來說,PB級的數據,則被認為是大數據

就常規而言,大數據至少是TB級的

除了想要存儲無盡的數據,企業也需要分析它們

數據以不同的形式存儲,其中大量的交易數據被稱為結構化數據,圖像和音頻等數據被稱為非結構化數據

ETL:提取Extract,轉換Transform,加載Load

現在的企業需要處理異構型數據,從Excel表格,數據庫到純文本、圖片、視頻、網絡數據、GPS數據、傳感器數據、文本數據、移動信息數據、甚至包括可以掃描和轉換成電子格式的文件

《Hadoop金融大數據分析》讀書筆記