小白大資料學習路線
學習大資料首先了解大資料技術得板塊劃分:
資料計算(離線計算):Hadoop、spark
資料計算(實時計算):storm、spartstreaming、flink
其他框架:zookeeper
資料採集:flume、Kafka
資料儲存:hbase、hdfs、redis、mysql
資料查詢:kylim、hive
別的不多說,首先學習大資料需要的基本功,以及步驟。
1、Linux基礎,最起碼你要知道Linux的基本命令列。
2、Java基礎(注意:JavaEE是Javaweb的另一塊了,學習大資料對javaee沒有要求,當然你之前懂得那就更好了,小白主要把Javase基本就可以了)。
3、MySQL,雖然不屬於大資料裡面得,但是學好MySQL對你後期學hive有很大的幫助,而且MySQL在實際工作中也是非常重要,建議學一些。前期要求會增刪改即可,後面好好研究。
4、Hadoop目前企業用得是Hadoop2.x版本
前期:hdfs主要學習hdfs的一些命令就差不多了,上傳、下載、刪除、移動、檢視等等常常用的命令即可。mapReduce建議重點學一下,前期主要是理解的原理和程式碼的實現即可。yarn前期瞭解即可了,要yarn是幹嘛的。
5、hive
hive是一個數據倉庫,所以的資料都是儲存到hdfs上,基本操作和MySQL差不多,為什麼前面讓你們學點MySQL的原因。前期學習hive主要是會學hql語句用即可,後期慢慢研究。
6,zookeepr
zookeeper是很多大資料框架的基礎,用來管理很多的大資料框架,針對這個框架,你需要知道如何在zkcli客戶端下對zookeeper的節點進行增刪改查操作即可。
7、HBase
是一個nosql的資料庫,是一個和key-value型別的資料庫,底層的資料儲存在hdfs上,在學習時前期主要row-key的設計,以及列族的設計即可。
8、redis
redis也是一個nosql的資料庫和key-value型的資料庫。
9、flume
是個日誌採集工具,也是一個比較常用的,應用的生產的日誌,主要學會看官網。
10、Kafka
是一個訊息佇列,在工作中常用於實時處理的場景,作為一箇中間緩衝層,主要弄懂topic、partition等概念和原理即可。
11、storm
是一個實時計算框架,和Hadoop區別,Hadoop是對離線海量資料進行處理的,而storm是對實時新增的每一條資料進行處理。學習storm主要編寫topology,storm並行調整。
12、你學完這些了,就應該網上找點專案來練練手了,前面的學習主要在於後面的做專案,現在互聯時代,你別說你找不到專案,谷歌、GitHub等等你懂的。最後既然你選擇了,就要堅持,相信自己。
如果你想更好的發展自己就學一下Scala、spark為自己找工作更加有優勢。如果想從事大資料方面的,歡迎關注我,後期會分享一些整套大資料課程給大家,希望大家學習進步!