1. 程式人生 > >我對大資料的看法

我對大資料的看法

我對大資料的看法

2015年02月28日 17:03:59  閱讀數:4900

大資料

 

大資料(bigdata),或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。 大資料的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Veracity(精確)。大資料最核心的價值就是在於對於海量資料進行儲存和分析。

大資料通常用來形容一個公司創造的大量非結構化和半結構化資料,這些資料在下載到關係型資料庫用於分析時會花費過多時間和金錢。大資料分析常和雲端計算聯絡到一起,因為實時的大型資料集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。大資料需要特殊的技術,以有效地處理大量的容忍經過時間內的資料。適用於大資料的技術,包括大規模並行處理(MPP)資料庫、資料探勘電網、分散式檔案系統、分散式資料庫、雲端計算平臺、網際網路和可擴充套件的儲存系統。從某種程度上說,大資料是資料分析的前沿技術。簡言之,從各種各樣型別的資料中,快速獲得有價值資訊的能力,就是大資料技術。

當前用於分析大資料的工具主要有Hadoop。Hadoop旨在通過一個高度可擴充套件的分散式批量處理系統,對大型資料集進行掃描,以產生其結果。Hadoop專案包括三部分,分別是Hadoop Distributed FileSystem(HDFS)、HadoopMapReduce程式設計模型,以及Hadoop Common。不適合使用Hadoop來解決的問題:1、最最重要一點,Hadoop能解決的問題必須是可以MapReduce的;2、資料結構不滿足key-value這樣的模式的;3、Hadoop不適合用來處理大批量的小檔案;4、Hadoop不適合用來處理需要及時響應的任務,高併發請求的任務。

未來,資料可能成為最大的交易商品。但資料量大並不能算是大資料,大資料的特徵是資料量大、資料種類多、非標準化資料的價值最大化。因此,大資料的價值是通過資料共享、交叉複用後獲取最大的資料價值。在他看來,未來大資料將會如基礎設施一樣,有資料提供方、管理者、監管者,資料的交叉複用將大資料變成一大產業。據統計,大資料所形成的市場規模在51億美元左右,而到2017年,此資料預計會上漲到530億美元。

 

我對大資料和與雲端計算的看法:

 

雲端計算是一種按使用量付費的模式,這種模式提供可用的、便捷的、按需的網路訪問, 進入可配置的計算資源共享池(資源包括網路,伺服器,儲存,應用軟體,服務),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務供應商進行很少的互動,是分散式計算、平行計算、效用計算、網路儲存、虛擬化、負載均衡等傳統計算機和網路技術發展融合的產物。

大資料探勘常和雲端計算聯絡到一起,因為實時的大型資料集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。只有在雲端計算產業已經規模化發展 3 年之後,分散式結構計算才給大資料提供了記錄的載體。可以說,雲端計算使大資料變成可能,打個比方,雲端計算充當了工業革命時期的發動機的角色,而大資料則是電,大資料是要依靠雲端計算技術來進行儲存和計算的。目前,雲端計算已經普及併成為IT行業主流技術,其實質是在計算量越來越大、資料越來越多、越來越動態、越來越實時的需求背景下被催生出來的一種基礎架構和商業模式。雲端計算為大資料提供了可以彈性擴充套件,相對便宜的儲存空間和計算資源,使得中小企業也可以像亞馬遜一樣通過雲端計算來完成大資料分析。大資料技術是雲端計算技術的延伸。大資料技術涵蓋了從資料的海量儲存、處理到應用多方面的技術,包括海量分散式檔案系統、平行計算框架、NoSQL資料庫、實時流資料處理以及智慧分析技術如模式識別、自然語言理解、應用知識庫等等。

大資料和雲端計算肯定是未來的發展所向,所以我們要學好很多演算法知識才能彌補我們在程式設計過程中的不足之處。


基於雲端計算的資料探勘的優勢 

(1)由於資料探勘處理的資料足海量的,要從海量的資料中挖掘出理解的知識,大規模的資料探勘足必須的。並且隨著網際網路上資料的快速增長,資料探勘的任務遠比搜尋任務要複雜,導致了在挖掘過程中需要有很好的開發環境和應用環境。這種情況下,基於雲端計算的方式是比較合適的。 

(2)基於雲端計算實現低成本分散式平行計算環境,因此,企業的資料處理成本大大的降低,同時也不再依存於高效能的機器。 

(3)基於雲端計算的資料探勘開發方便,遮蔽了底層。在並行化條件下。雲端計算能夠利用原有裝置提高對大規模資料的處理能力和速度,既保證了容錯性,也增加結點。

總結

我們在學習和了解大資料、雲端計算等過程中,還是要考慮一些方法來實現。我們有大資料,我們要從這些資料中得到我們想要的、對我們有用的資訊,想應對大資料時代,資料探勘這門課就是少不了。簡單點來說,大資料是礦石,資料探勘是一個挖礦的過程,演算法是工具、方法,相當於你挖礦用的鐵鍬啊,鋤頭啊等等,而云計算,就是可以讓你更輕鬆、更快地挖礦。大資料不是忽悠,關鍵是要能夠發現其中的價值,而資料探勘的演算法、雲端計算和平行計算就是發現其中價值的工具。這就是我所瞭解的大資料和雲端計算。
---------------------