1. 程式人生 > >大數據學習之路-簡介

大數據學習之路-簡介

str 現實生活 之路 sea ear 現實 什麽是 大數據 分布式數據庫

1、什麽是大數據

基本概念

《數據處理》

在互聯網技術發展到現今階段,大量日常、工作等事務產生的數據都已經信息化,人類產生的數據量相比以前有了爆炸式的增長,以前的傳統的數據處理技術已經無法勝任,需求催生技術,一套用來處理海量數據的軟件工具應運而生,這就是大數據!

處理海量數據的核心技術:

海量數據存儲:分布式

海量數據運算:分布式

這些核心技術的實現是不需要用戶從零開始造輪子的

存儲和運算,都已經有大量的成熟的框架來用

存儲框架:

HDFS——分布式文件存儲系統(HADOOP中的存儲框架)

HBASE——分布式數據庫系統

KAFKA——分布式消息緩存系統(實時流式數據處理場景中應用廣泛)

運算框架:(要解決的核心問題就是幫用戶將處理邏輯在很多機器上並行)

MAPREDUCE—— 離線批處理/HADOOP中的運算框架

SPARK —— 離線批處理/實時流式計算

STORM —— 實時流式計算

輔助類的工具(解放大數據工程師的一些繁瑣工作):

HIVE —— 數據倉庫工具:可以接收sql,翻譯成mapreduce或者spark程序運行

FLUME——數據采集

SQOOP——數據遷移

ELASTIC SEARCH —— 分布式的搜索引擎

.......

換個角度說,大數據是:

1、有海量的數據

2、有對海量數據進行挖掘的需求

3、有對海量數據進行挖掘的軟件工具(hadoop、spark、storm、flink、tez、impala......)

2.大數據在現實生活中的具體應用

數據處理的最典型應用:公司的產品運營情況分析 友盟

電商推薦系統:基於海量的瀏覽行為、購物行為數據,進行大量的算法模型的運算,得出各類推薦結論,以供電商網站頁面來為用戶進行商品推薦

精準廣告推送系統:基於海量的互聯網用戶的各類數據,統計分析,進行用戶畫像(得到用戶的各種屬性標簽),然後可以為廣告主進行有針對性的精準的廣告投放

大數據學習之路-簡介