大資料與Hadoop簡介
阿新 • • 發佈:2018-12-08
大資料與Hadoop
1.大資料的特點
- Volume(大量):個人計算機硬碟的容量為TB級,而一些大企業的資料量已經接近EB量級了。
- Velocity(高速):這是大資料區分於傳統資料探勘的最顯著特徵。
- Variety(多樣):這種型別的多樣性也讓資料被分為結構化資料(資料庫/文字為主的結構化資料)和非結構化資料(日誌 、圖片、視屏等)
- Value(低密度):價值密度的高低與資料總量的大小成反比!!!
2.有哪些應用的場景
- 物流倉儲:大資料分析系統助力商家精細化運營、提升銷量、節約成本
- 零售:分析使用者消費習慣,為使用者購買商品提供方便,從而提升商品銷量
- 旅遊:深度結合大資料能力與旅遊產業智慧管理、智慧服務和智慧營銷的未來
- 商品廣告推薦:給使用者推薦可能喜歡的商品。等等等等。。。。。
3.Hadoop的三大發行版本
- Apache版本最原始(最基礎)的版本,對於入門學習最好。
官網地址:http://hadoop.apache.org/releases.html
下載地址:https://archive.apache.org/dist/hadoop/common/ - Cloudera在大型網際網路企業中用的較多。
官網地址:https://www.cloudera.com/downloads/cdh/5-10-0.html
下載地址:http://archive-primary.cloudera.com/cdh5/cdh/5/ - Hortonworks文件較好。
官網地址:https://hortonworks.com/products/data-center/hdp/
下載地址:https://hortonworks.com/downloads/#data-platform
4.Hadoop的優勢
- 高可靠性:Hadoop底層維護多個數據副本,所以即使Hadoop某個計算元素或儲存出現故障,也不會導致資料的丟失。
- 高擴充套件性:在叢集間分配任務資料,可方便的擴充套件數以千計的節點。
- 高效性:在MapReduce的思想下,Hadoop是並行工作的,以加快任務處理速度。
- 高容錯性:能夠自動將失敗的任務重新分配。
5.Hadoop的組成
.在Hadoop1.x時代,Hadoop中的MapReduce同時處理業務邏輯運算和資源的排程,耦合性較大,在Hadoop2.x時代,增加了Yarn。Yarn只負責資源的排程,MapReduce只負責運算
版權宣告:本部落格為記錄本人自學感悟,轉載需註明出處!
https://me.csdn.net/qq_39657909