1. 程式人生 > >大資料技術怎麼開始學習,在學習大資料之前,需要具備什麼基礎?

大資料技術怎麼開始學習,在學習大資料之前,需要具備什麼基礎?

未來5年大資料行業呈井噴趨勢,人才需求火爆,2018年大資料人才缺口更是高達900萬。以後想要做大資料相關的工作,需要學習哪些技術知識?

羅馬不是一天建成的,大資料工程師也不是短時間能鍛造的。想要成為大資料開發工程師,也要看你是否骨骼驚奇,天賦過人!在學習大資料之前,你還需要有一定的基礎!

 

其實大資料並不是一種概念,而是一種方法論。簡單來說,就是通過分析和挖掘全量的非抽樣的資料輔助決策。大資料可以實現

的應用可以概括為兩個方向,一個是精準化定製,第二個是預測。比如像通過搜尋引擎搜尋同樣的內容,每個人的結果卻是大不

相同的。再比如精準營銷、百度的推廣、淘寶的喜歡推薦,或者你到了一個地方,自動給你推薦周邊的消費設施等等。

目前市場對大資料相關人才的需求與日俱增,崗位的增多,也導致了大資料相關人才出現了供不應求的狀況,從而引發了一波大

資料學習的浪潮。大家可以先了解一下關於大資料相關的崗位分類,以及各個崗位需要掌握那些相對應的技能,並想清楚自己未

來的發展方向,再開始著手針對崗位所需的技術進行學習與研究。所謂知己知彼,才能更好的達成目標嘛。

 

 

大資料處理技術怎麼學習呢?在做大資料開發之前,因為Hadoop是高層次的語言開發,需要懂得Java或者Python,很快的就能上

手。所有的大資料生態架構都是基於linux系統的基礎上的,所以你要有Linux系統的基本知識。如果你不懂Java或者Python還有

Linux系統,那麼這都是你必學的知識(Java或者Python可二選其一)。

Linux系統:因為大資料相關軟體都是在Linux系統上執行的,所以Linux要學習的紮實一些,學好Linux對你快速掌握大資料相關

技術會有很大的幫助,能讓你更好的理解hadoop、hive、hbase、spark等大資料軟體的執行環境和網路環境配置,能少踩很多

坑,學會shell就能看懂指令碼這樣能更容易理解和配置大資料叢集。還能讓你對以後新出的大資料技術學習起來更快。


在這裡自己建的大資料學習交流群:199427210,群裡都是學大資料開發的,如果你正在學習大資料 ,大家都是軟體開發黨,不定期分享乾貨(只有大資料軟體開發相關的),歡迎進階中和進想深入大資料的小夥伴加入。


 

一、學習大資料需要的基礎

1、java SE、EE(SSM)

90%的大資料框架都是Java寫的

2、MySQL

SQL on Hadoop

3、Linux

大資料的框架安裝在Linux作業系統上

在有了上面的技術基礎支撐之後,便可以開始我們的大資料開發工程師的鍛造之旅了,可以根據以下三個大的方面進行學習,當然了,中間需要穿插一些專案練習,將理論和實戰相關聯才能成長的很快!

二、大資料技術需要學什麼

1、大資料離線分析

一般處理T+1資料(T:可能是1天、一週、一個月、一年)

a、Hadoop :一般不選用新版本,踩坑難解決

(common、HDES、MapReduce、YARN)

環境搭建、處理資料的思想

b、Hive:大資料的資料倉庫

經過寫SQL對資料進行操作,類似於MySQL資料庫的sql

c、HBase:基於HDFS的NOSQL資料庫

面向列儲存

d、協作框架:

sqoop(橋樑:HDFS《==》RDBMS)

flume:蒐集日誌檔案中的資訊

e、排程框架

anzkaban

瞭解:crotab(Linux自帶)

zeus(Alibaba)

Oozie(cloudera)

f、前沿框架擴充套件:

kylin、impala、ElasticSearch(ES)

2、大資料實時分析

以spark框架為主

Scala:OOP(面向物件程式設計)+FP(函式是程式設計)

sparkCore:類比MapReduce

sparkSQL:類比hive

sparkStreaming:實時資料處理

kafka:訊息佇列

前沿框架擴充套件:flink

阿里巴巴:blink

3、大資料機器學習

spark MLlib:機器學習庫

pyspark程式設計:Python和spark的結合

以上就是大資料的學習路線,有興趣的朋友,也可以瞭解下人工智慧和物聯網。