1. 程式人生 > >關於大資料方向

關於大資料方向

在大二分專業的時候,選擇了資料庫這個方向。現在的課程主要在傾向大資料方向。近幾年,大資料作為繼雲端計算、物聯網之後的IT行業又一顛覆性的技術,備受人們關注。大資料無處不在,包括金融、汽車、零售、餐飲、電信、能源、財政、醫療、體育、等在內的各行各業,都融入了大資料的印記,大資料對人類的社會生產和生活必將產生重大而深遠的影響。

大資料處理框架Hadoop是一個開源的、可運行於大規模叢集上的分散式計算平臺,他實現了MapReduce計算模型和分散式檔案系統HDFS等功能,在業內得到了廣泛應用。Hadoop是一個能對大量資料進行分散式處理的軟體框架,並且是以一種高效、可靠、可伸縮的方式進行處理的,它具有高可靠性、高效性、高擴充套件性、高容錯性、成本低、執行在Linux平臺上,支援多種語言彙編。Hadoop的生態系統在不斷完善,除了核心的HDFS和MapReduce以外,Hadoop生態系統還包括Zookeeper、HBASE、Hive、Pig、Mshout、Sqoop、 flume、Ambari等功能元件。

Hadoop分散式檔案系統是針對GFS的開源實現,它是Hadoop的兩大核心元件之一,提供了在廉價伺服器叢集中進行大規模分散式檔案儲存的能力。HDFS具有很好的容錯能力,並且相容廉價的硬體裝置,因此可以以較低的成本利用機器實現大流量和大資料良的讀寫。分散式檔案系統在物理結構上是由計算機叢集中的多個節點構成的,這些節點分為兩類,一類叫“主節點”(Master Node)或者也被稱為“名稱結點”(NameNode),另一類叫“從節點”(Slave Node)或者也被稱為“資料節點”(DataNode)。