大數據學習之路-簡介
1、什麽是大數據
基本概念
《數據處理》
在互聯網技術發展到現今階段,大量日常、工作等事務產生的數據都已經信息化,人類產生的數據量相比以前有了爆炸式的增長,以前的傳統的數據處理技術已經無法勝任,需求催生技術,一套用來處理海量數據的軟件工具應運而生,這就是大數據!
處理海量數據的核心技術:
海量數據存儲:分布式
海量數據運算:分布式
這些核心技術的實現是不需要用戶從零開始造輪子的
存儲和運算,都已經有大量的成熟的框架來用
存儲框架:
HDFS——分布式文件存儲系統(HADOOP中的存儲框架)
HBASE——分布式數據庫系統
KAFKA——分布式消息緩存系統(實時流式數據處理場景中應用廣泛)
運算框架:(要解決的核心問題就是幫用戶將處理邏輯在很多機器上並行)
MAPREDUCE—— 離線批處理/HADOOP中的運算框架
SPARK —— 離線批處理/實時流式計算
STORM —— 實時流式計算
輔助類的工具(解放大數據工程師的一些繁瑣工作):
HIVE —— 數據倉庫工具:可以接收sql,翻譯成mapreduce或者spark程序運行
FLUME——數據采集
SQOOP——數據遷移
ELASTIC SEARCH —— 分布式的搜索引擎
.......
換個角度說,大數據是:
1、有海量的數據
2、有對海量數據進行挖掘的需求
3、有對海量數據進行挖掘的軟件工具(hadoop、spark、storm、flink、tez、impala......)
2.大數據在現實生活中的具體應用
數據處理的最典型應用:公司的產品運營情況分析 友盟
電商推薦系統:基於海量的瀏覽行為、購物行為數據,進行大量的算法模型的運算,得出各類推薦結論,以供電商網站頁面來為用戶進行商品推薦
精準廣告推送系統:基於海量的互聯網用戶的各類數據,統計分析,進行用戶畫像(得到用戶的各種屬性標簽),然後可以為廣告主進行有針對性的精準的廣告投放
大數據學習之路-簡介