1. 程式人生 > >大資料入門學習,你要掌握這些技能

大資料入門學習,你要掌握這些技能

小編將此文獻給對資料有熱情,想長期從事此行業的年輕人,希望對你們有所啟發,並快速調整思路和方向,讓自己的職業生涯有更好的發展。

根據資料應用的不同階段,本文將從資料底層到最後應用,來談談那些資料人的必備技能。

1、大資料平臺

目前很火,資料來源頭,各種炫酷新技術,搭建Hadoop、Hive、Spark、Kylin、Druid、Beam~,前提是你要懂Java,很多平臺都是用Java開發的。

目前很多企業都把資料採集下來了,對於傳統的業務資料,用傳統的資料是完全夠用的,可是對於使用者行為和點選行為這些資料或者很多非結構化的資料,文字、影象和文字類的,由於資料量太大,很多公司都不知道怎麼進行儲存。

這裡面要解決的是實時、近實時和離線的大資料框架如何搭建,各資料流之間如何耦合和解耦,如何進行容災、平臺穩定、可用是需要重點考慮的。

我的感覺是:最近兩三年中,這塊人才還是很稀缺的,因為大資料概念炒作的這麼厲害,很多企業都被忽悠說,我們也來開始進入大資料行業吧。進入的前提之一就是需要把資料儲存下來,特別是很多使用者行為方面的資料,對於業務的提升比較明顯的,如果你能很好的刻畫使用者,那麼對你的產品設計、市場營銷、開發市場都是有幫助的。現階段,很多公司都要做第一步:儲存更多的資料。這也是這塊人員流動性比較高的原因,都被高薪挖走了。

這塊工作最被吐槽的一點就是:Hive速度好慢,SQL查詢好慢,叢集怎麼又掛掉了,hadoop版本升級後,怎麼資料跑出來不對了等等。

如果想在這塊做的很好,還需要有整個系統架構的設計能力、比較的強的抗壓能力和解決問題的能力、資源收集的能力,可以打入開源社群,這樣就可以隨時follow最新的潮流和技術。

2、資料視覺化

這是個很炫的工作,最好是能懂點前端,比如js。資料視覺化人員需要有很好的分析思維,不能為了炫技而忽視對業務的幫助程度。因為我對這個崗位客串的不多,所以沒有特別深入的感悟,不過我覺得這個崗位需要有分析的能力,才能把視覺化做好。

另外一方面來說,做資料應用的人都應該懂點資料視覺化,要知道觀點表達的素材順序是:圖片>表格>文字,一個能夠用圖片來闡述的機會千萬別用文字來描述,因為這樣更易於讓別人理解。要知道,給大領導講解事情的時候,需要把大領導設想成是個“資料白痴”,這樣才能把一件事情說的比較生動。

3、資料分析師

對於資料分析師的定位:個人認為,成為優秀的資料分析師是非常難的,現在市面上也沒有多少優秀的分析師。資料分析師的技能要求,除了會資料分析、提煉結論、洞察資料背後的原因之外,還需要了解業務,懂演算法。

只有這樣,當面對一個業務問題時,資料分析師們才可以針對問題抽絲剝繭,層層遞進去解決問題,再根據定位的問題進行策略的應對,比如是先做上策略進行測試還是應用演算法進行優化,用演算法用在哪個場景上,能不能用演算法來解決問題。

一個優秀的資料分析師,是個精通業務和演算法的全能資料科學家,不是那個只會聽從業務的需求而進行拉資料、做報表、只做分析的閒雜人等。我們都說分析要給出結論,優秀分析師的結論就是一個能解決問題的一攬子策略和應對措施,同時很多需求是分析師去主動發現並通過資料來挖掘出來的。

從上述描述中,可以看到對資料分析師的要求是:會寫sql拉資料,精通業務、會資料洞察、精通演算法,主動性強,要求還是很高的。

4、資料探勘/演算法

對於這個崗位的技能要求來說,沒有要求你一定要從零開始實現所有的演算法,現在有很多現成的演算法包進行呼叫。最基本的要求是,你要知道每個場景會用到哪個演算法,比如分類場景,常用的分類演算法就有LR/RF/Xgboost/ET等等,此外,你還要知道每個演算法的有效優化引數是什麼、模型效果不好的時候怎麼優化。還需要有演算法的實現能力,語言方面可以用Scala/python/R/Java等。我們常說:工具不重要,重要的是你玩工具,不是工具玩你。

另外針對有監督式學習演算法,演算法工程師最好有很好的業務sense,這樣在feature設計的時候才能更有針對性,設計的feature才有可能有很好的先驗性。

以上說了這麼多,嘮叨了這麼多,其實核心就是:如何用資料創造價值,如果你沒有用資料創造價值的能力,那麼就只能等著被資料淹沒,被資料拍死在職場上,早早到達職業的天花板。大資料學習群142973723