大數據入門之大數據處理流程
阿新 • • 發佈:2018-06-11
大數據開發 大數據挖掘 大數據分析 隨著互聯網的發展,大數據也在逐漸彰顯出自己的優勢特點,那麽關於大數據的處理流程,你是否了解?讓我們一起來看看大數據的處理流程。
第一,數據采集
定義:利用多種輕型數據庫來接收發自客戶端的數據,並且用戶可以通過這些數據庫來進行簡單的查詢和處理工作。
特點和挑戰:並發系數高。
使用的產品:MySQL,Oracle,HBase,Redis和 MongoDB等,並且這些產品的特點各不相同。
第二,統計分析
定義:將海量的來自前端的數據快速導入到一個集中的大型分布式數據庫 或者分布式存儲集群,利用分布式技術來對存儲於其內的集中的海量數據 進行普通的查詢和分類匯總等,以此滿足大多數常見的分析需求。
特點和挑戰:導入數據量大,查詢涉及的數據量大,查詢請求多。
使用的產品:InfoBright,Hadoop(Pig和Hive),YunTable, SAP Hana和Oracle Exadata,除Hadoop以做離線分析為主之外,其他產品可做實時分析。
第三,挖掘數據
定義:基於前面的查詢數據進行數據挖掘,來滿足高級別的數據分析需求。
特點和挑戰:算法復雜,並且計算涉及的數據量和計算量都大。
使用的產品:R,Hadoop Mahout
大數據入門之大數據處理流程