大資料的特點是什麼,大資料與Hadoop有什麼關係?
隨著資訊化技術的日漸普及、寬頻網路的快速興起,以及雲端計算、移動互聯和物聯網等新一代資訊科技的廣泛應用,全球資料的增長速度進一步加快。與此同時,一批資料收集、儲存、處理技術和應用快速發展並逐漸匯聚。軟體運用的技術越來越尖端,結合不斷提高的計算能力,從資料中提取有價值資訊的能力顯著提高。大體量的資料不再是無序而又沒有價值的,大資料誕生了。
1認識大資料
所謂大資料,就是從各種型別的資料中,快速獲得有價值資訊的能力。大資料是需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的資訊資產。它是對那些超出正常處理範圍和大小、迫使使用者採用非傳統處理方法的資料集所下的定義。
區別於過去的海量資料,大資料的特點可以概況為4個V:Volume、Variety、Value和Velocity,即大量、多樣、價值密度低、快速。
第一,資料體量大。大資料一般指在10TB(1TB=1024GB)規模以上的資料量,目前正在躍升到PB(1PB=1024TB)級別。不僅儲存量大,計算量也大。
第二,資料型別多。除了數值資料,還有文字、聲音、視訊等,包括網路日誌、視訊、圖片、地理位置資訊等多種型別的格式。由於資料來自多種資料來源,資料種類和格式日漸豐富,已衝破了以前所限定的結構化資料範疇,囊括了半結構化和非結構化資料。
第三,價值密度低。以視訊為例,不間斷監控視訊中,有價值的資料可能僅有一兩秒。找到有價值的資訊有如沙裡淘金,其價值卻又彌足珍貴。
第四,處理速度快。在資料量非常龐大的情況下,也能做到資料的實時處理。這一點和傳統的資料探勘技術有著本質的不同。
大資料技術是指從各種型別的大體量資料中快速獲得有價值資訊的技術。這是大資料的核心問題。目前所說的大資料不僅指資料本身的規模,也包括採集資料的工具、平臺和資料分析系統。大資料研發的目的是發展大資料技術並將其應用到相關領域,通過解決大體量資料處理問題促進其突破性發展。因此,大資料時代帶來的挑戰不僅體現在如何處理大體量資料並從中獲取有價值的資訊,也體現在如何加強大資料技術研發。大資料所涉及的關鍵技術大致包括6個方面:資料採集與資料管理、分散式儲存和平行計算、大資料應用開發、資料分析與挖掘、大資料前端應用、資料服務和展現。
2大資料與Hadoop
大資料技術正在向各行各業滲透。Hadoop作為資料分散式處理系統的典型代表,已經成為該領域事實的標準。但Hadoop並不等於大資料,它只是一個成功的處理離線資料的分散式系統,大資料領域還存在眾多其他型別的處理系統。
伴隨大資料技術的普及,Hadoop因其開源的特點和卓越的效能成為一時的新寵,甚至有人認為大資料就是Hadoop,其實這是一個誤區。Hadoop只是處理離線資料的分散式儲存和處理系統。除了Hadoop,還有用於處理流資料的Storm、處理關係型資料的Oracle、處理實時機器資料的Splunk……目前主流的大資料系統很多,Hadoop只是其中的代表。
2.1 Hadoop的核心模組
Hadoop Common:Hadoop的公用應用模組,是整個Hadoop專案的核心,為Hadoop各子專案提供各種工具,如配置檔案和日誌操作等,其他Hadoop子專案都是在此基礎上發展起來的。
Hadoop Distributed File System(HDFS):Hadoop分散式檔案系統,提供高吞吐量應用程式資料訪問,並具有高容錯性。對外部客戶機而言,HDFS就像一個傳統的分級檔案系統,可以進行增刪改查或重新命名等常規檔案操作。但實際上HDFS中的檔案被分成塊,然後複製到多個計算機中,這與傳統的RAID架構大不相同。HDFS特別適合需要一次寫入、多次讀取的超大規模資料集的應用程式。
Hadoop YARN:一個作業排程和群集資源管理框架。
Hadoop MapReduce:基於YARN的大型資料分散式並行程式設計模式和程式執行框架,是Google的MapReduce的開源實現。它幫助使用者編寫處理大型資料集的並行執行程式。MapReduce隱藏了分散式並行程式設計的底層細節,開發人員只需編寫業務邏輯程式碼,而無需考慮程式並行執行的細節,從而大大提高了開發效率。
Apache的其他與Hadoop相關的專案還有很多。
2.2 Hadoop的特點
作為分散式計算領域的典型代表,Hadoop比其他分散式框架有更多的優點。
可擴充套件性:Hadoop可以在不停止叢集服務的情況下,在可用的計算機集簇間分配資料並完成計算,這些集簇可以方便地擴充套件到數千節點中。
簡單性:Hadoop實現了簡單並行程式設計模式,使用者不需要了解分散式儲存和計算的底層細節即可編寫和執行分散式應用,在叢集上處理大規模資料集,所以使用Hadoop的使用者可以輕鬆搭建自己的分散式平臺。
高效性:Hadoop的分散式檔案系統具有高效的資料互動設計,可以通過並行處理加快處理速度。Hadoop還是可伸縮的,能夠在節點間動態地移動資料,並保證各個節點的動態平衡,因此處理速度非常快。
可靠性:Hadoop的分散式檔案系統將資料分塊儲存,每個資料塊在叢集節點上依據一定的策略冗餘儲存,確保能夠針對失敗的節點重新分佈處理,從而保證了資料的可靠性。
成本低:依賴於廉價伺服器,它的成本比較低,任何人都可以使用。
在大資料時代,Hadoop以其優越的效能受到業界的廣泛關注,已經成為大資料處理領域事實上的標準。如今,Hadoop在諸多領域大顯身手。隨著開源社群和國際眾多國際技術廠商對這一開源技術的積極支援與持續的大量投入,相信不久的將來,Hadoop技術會被拓展到更多的應用領域。
在不久的將來,多智時代一定會徹底走入我們的生活,有興趣入行未來前沿產業的朋友,可以收藏 ofollow,noindex" target="_blank"> 多智時代 ,及時獲取人工智慧、大資料、雲端計算和物聯網的前沿資訊和基礎知識,讓我們一起攜手,引領人工智慧的未來!