1. 程式人生 > >小白大資料學習路線

小白大資料學習路線

學習大資料首先了解大資料技術得板塊劃分:

資料計算(離線計算):Hadoop、spark

資料計算(實時計算):storm、spartstreaming、flink

其他框架:zookeeper

資料採集:flume、Kafka 

資料儲存:hbase、hdfs、redis、mysql

資料查詢:kylim、hive

大資料學習路線

 

別的不多說,首先學習大資料需要的基本功,以及步驟。

1、Linux基礎,最起碼你要知道Linux的基本命令列。

2、Java基礎(注意:JavaEE是Javaweb的另一塊了,學習大資料對javaee沒有要求,當然你之前懂得那就更好了,小白主要把Javase基本就可以了)。

3、MySQL,雖然不屬於大資料裡面得,但是學好MySQL對你後期學hive有很大的幫助,而且MySQL在實際工作中也是非常重要,建議學一些。前期要求會增刪改即可,後面好好研究。

4、Hadoop目前企業用得是Hadoop2.x版本

前期:hdfs主要學習hdfs的一些命令就差不多了,上傳、下載、刪除、移動、檢視等等常常用的命令即可。mapReduce建議重點學一下,前期主要是理解的原理和程式碼的實現即可。yarn前期瞭解即可了,要yarn是幹嘛的。

5、hive

hive是一個數據倉庫,所以的資料都是儲存到hdfs上,基本操作和MySQL差不多,為什麼前面讓你們學點MySQL的原因。前期學習hive主要是會學hql語句用即可,後期慢慢研究。

6,zookeepr

zookeeper是很多大資料框架的基礎,用來管理很多的大資料框架,針對這個框架,你需要知道如何在zkcli客戶端下對zookeeper的節點進行增刪改查操作即可。

7、HBase

是一個nosql的資料庫,是一個和key-value型別的資料庫,底層的資料儲存在hdfs上,在學習時前期主要row-key的設計,以及列族的設計即可。

8、redis

redis也是一個nosql的資料庫和key-value型的資料庫。

9、flume

是個日誌採集工具,也是一個比較常用的,應用的生產的日誌,主要學會看官網。

10、Kafka

是一個訊息佇列,在工作中常用於實時處理的場景,作為一箇中間緩衝層,主要弄懂topic、partition等概念和原理即可。

11、storm

是一個實時計算框架,和Hadoop區別,Hadoop是對離線海量資料進行處理的,而storm是對實時新增的每一條資料進行處理。學習storm主要編寫topology,storm並行調整。

12、你學完這些了,就應該網上找點專案來練練手了,前面的學習主要在於後面的做專案,現在互聯時代,你別說你找不到專案,谷歌、GitHub等等你懂的。最後既然你選擇了,就要堅持,相信自己。

如果你想更好的發展自己就學一下Scala、spark為自己找工作更加有優勢。如果想從事大資料方面的,歡迎關注我,後期會分享一些整套大資料課程給大家,希望大家學習進步!