1. 程式人生 > >進階指南:如何從數據分析師轉型為數據科學家?

進階指南:如何從數據分析師轉型為數據科學家?

www. 刷新 pytho 轉型 豐滿 力量 aws 非結構化數據 動手

大數據文摘出品

來源:Medium

編譯:李雷、橡樹_Hiangsug

文章解釋了轉型為數據科學家的原因,整理了數據科學家應該掌握的技能,著重介紹了從數據分析師轉型為數據科學家的具體方法。

如何從數據分析師華麗轉型,成為一名數據科學家?好比“把大象裝進冰箱”,成為“數據科學家”僅需簡單三步:

1. 進入LinkedIn登錄你的賬號。

2. 點擊“編輯個人資料”。

3. 將 “數據分析師”這個詞替換為“數據科學家”。

搞定,就是這麽簡單!

理想很豐滿,現實很骨感。在現實生活中,我們必須承認:培養數據洞察能力絕非易事。

入門數據科學早已有許多優秀的博文可供參考,比如以下兩篇:《成為Jet.com數據分析師的自學之路》和《入門數據科學需掌握的基礎知識》,但是為數據分析師提供轉型為數據科學家的方法的文章卻少之又少。

《成為Jet.com數據分析師的自學之路》:

https://medium.freecodecamp.org/a-path-for-you-to-learn-analytics-and-data-skills-bd48ccde7325

《入門數據科學需掌握的基礎知識》:

https://medium.freecodecamp.org/aspiring-data-scientist-master-these-fundamentals-be7c54350868

《尚學堂大數據課程》:

大數據學習視頻:https://www.shsxt.com/dashujushipin/

可以免費獲取優秀的大數據學習視頻,還有尚學堂培訓課程免費學習機會

在我開始介紹這條轉型之路前,我還是想先花些功夫詳細描述一下這兩種職業身份的具體職責。

技術分享圖片

數據分析師的主要工作是對數據進行收集和處理,並通過統計算法分析已處理的結構化數據,從而為數據賦能,改良決策。

數據科學家也會進行類似的工作,但對其提出了更高的要求。除上述職責外,一個優秀的數據科學家需要同時具備處理大量非結構化數據的能力,甚至擁有對數據進行實時處理的能力。

他們不僅可以洞悉數據背後的價值,還會對數據進行更深度的清洗和處理,並且用各種各樣的高級算法對數據進行更深層的分析。除此之外,他們還具有很強的敘事能力和數據可視化能力。

我經常會接觸到許多才華橫溢的分析師,他們急切地想要在數據科學界大展拳腳,卻總是找不合適的機會,甚至不知從何入手——而這正是我寫下這篇文章的主要原因。

為什麽要成為數據科學家?

影響力:成為一名數據科學家意味著你將有機會發現和創造巨大的商業價值,發表更高層的決策意見,甚至幫助企業尋找未來的發展方向。

成就感:數據科學是一個飛速發展的領域,其中有許多有趣的問題亟待解決。作為一名數據科學家,你可以建立圖像識別系統,開發文本分類器,識別社交媒體上的惡意評價,投身解決一系列尚未攻克的難題。

前沿性:曾有人預言,人工智能將最終取代人類工作。與其等著自己的工作被人工智能取代,不如主動出擊,追上這一時代的浪潮。

薪酬待遇:也許數據科學家的薪酬還不足以讓你享受開遊艇喝香檳的奢靡生活,但相較於其他工作已經相當可觀。業界對數據科學家的需求量依舊較大,優秀的數據科學家仍屬高薪稀缺人才。直白來講,為了更好的明天,努力成為一名優秀的數據科學家吧!

技術分享圖片

數據科學——學得多,做得多,但賺得也多!

友情提示:量力而行,切忌盲從,不要被金錢和誘惑蒙蔽了雙眼,畢竟貪得無厭沒有好結果(“華爾街之狼”的下場很慘)。

我是否擁有成為數據科學家的資質?

盡管培養處理棘手的數據結構和(或)大型數據的能力需要數年的經驗積累,但別灰心,實際上大多數分析師在一定程度上已經打下了成為數據科學家的基礎。換句話說,只要肯下功夫,轉型為數據科學家沒有想象中那麽困難。

那麽,成為一名合格的數據科學家到底需要掌握哪些技能?

一個復雜的數據科學項目可能由眾多子項目構成,且項目流程又復雜多變,所以我們恐怕沒有辦法找到這個問題的標準答案。單就近幾年數據科學的發展來看,成為一名數據科學家至少需要了解以下幾個方面的技能分支:

  • 數據科學語言:Python / R。

  • 關系型數據庫?:MySQL,Postgress。

  • 非關系型數據庫:MongoDB。

  • 機器學習模型:回歸算法(Regression)、提升決策樹(Boosted Trees)、支持向量機(SVM)、神經網絡(NNs)等。

  • 圖像處理:Neo4J,GraphX

  • 分布式計算:Hadoop,Spark

  • 雲計算?:GCP / AWS / Azure

  • API 交互:OAuth,Rest

  • 數據可視化和Web應用:D3,RShiny

  • 專業領域:自然語言處理(NLP),光學字符識別(OCR)和計算機視覺(CV)

技術分享圖片

Boosted Trees模型在近幾年的數據科學競賽中大放異彩。

技術分享圖片

RShiny數據儀表盤是一個優秀的交互工具,可供用戶更加直觀地對數據進行探索。

掌握這些技能需要很長時間(可能比完成學位課程的時間還要長),即使是為我們熟知的“牛人”們仍在不斷地學習。但是,我們大可不必擔心自己能力有限,學習知識需要一步步的積累,掌握技能需要一步步的打磨。每天進步一點,總有一天我們將擁有足夠豐富的知識儲備和高水平的技能迎接未來的挑戰。

智力水平的高低無法決定我們是否可以獲得成功,堅定的決心和頑強的意誌才是通往成功的關鍵所在。

我具體應該怎麽做?

在開始行動前,我們需要掌握一些基本的技能:

樹立正確的信念。或許在十年前,找到一門合適的數據軟件課程可能需要花費數周之久,但時代已變,線上學習材料觸手可及,資源匱乏再也不是逃避學習的借口。我們必須保持持續學習的能力,不斷為自己充電,磨練自己的技術。

學習一門編程語言並提升你的數學能力。大多數人都是從學習Python和(或)R開始數據科學之路的,而且Coursera和Udemy等網站上提供了大量相關的免費課程資源。Python用戶喜歡通過Anaconda和Jupyter編程,而R用戶則較多地使用R Studio。就數學計算能力而言,吳恩達(Andrew Ng)的機器學習課程和斯坦福大學的神經網絡課都很適合於轉型人士學習。

動手解決問題。你可以嘗試在工作中找到所遇到的實際問題,與業務專家和數據工程師展開合作,親自動手解決這些問題——這是最好的端到端開發模式。

參加Kaggle比賽。還有什麽比與數千人同臺競賽更能提升建模技巧呢?Kaggle上的比賽要求十分清晰,提供的數據都已經過清洗,非常值得一試。剛開始不要太在意比賽的排名,以嘗試的心態開始你的第一場比賽——每一次嘗試都是新的開始。

緊隨領軍人物的動態。有些人喜歡把為這一領域做出傑出貢獻的人比作“數據科學界的搖滾巨星”,他們的言行和工作非常值得你花時間去了解和學習——時常刷新Geoffrey Hinton,Andrew Ng,Yann LeCun,Rachel Thomas和Jeremy Howard等人的動態,你肯定會有所收獲。

高效地工作。在一定工作積累後,嘗試借助工具提升你的工作效率——使用GitHub等版本控制工具維護和儲存你的代碼,用Docker對你的代碼進行封裝與發布。

有效地溝通。學會“推銷”自己的工作。高管們總是喜歡“華麗”的項目展示,所以當你在做重要的工作報告時要努力“博眼球”,突出工作的亮點。

Twitter也是另一種獲取信息的媒介,Rachel Thomas等人的動態十分值得關註。

為自己鋪路

即使你掌握了世界上所有的技能,如果你的公司無法提供合適的開發工具,配置相應的開發環境,你也很難施展拳腳。

現實生活中總會有一些不可控的因素阻礙我們前進的腳步,與其浪費時間糾結於此,我們更加應該關註那些我們可以改變的因素並積極做出行動。

加入新的團隊,這是最簡單可行的轉型方法。大多數中到大型的公司都至少會有一個小型數據科學團隊——別猶豫,加入他們!

與專業人士合作,如果你無法“跳槽”,那麽就請想方設法找到在你認識範圍內知識最淵博的數據科學家並與之合作。

舉例來說,你可以在現有的工作中找到可自動化完成的業務流程,然後帶著這一問題找到這方面的專家。但這時千萬不要直接把任務“甩”給這些專家,嘗試與他們合作,加入到問題的解決過程中來。

搭建數據科學的內部環境,並不是所有的公司都確定它們是否需要數據科學的幫助,或者他們並不知道如何引入數據科學作為分析工具。

傳統的分析系統已經讓他們忙得不可開交,且開發新數據分析系統所帶來的安全和審計任務都相當耗時,因此他們只接受效益明顯的商業應用方案——這就是你大顯身手的機會,用你的知識儲備為公司搭建數據科學發展環境,引入合適的數據科學工具,培養內部人員的數據思維,為數據科學團隊儲備力量。

開發一個明確的業務用例,你可以重新審視業務流程,思考如何將數據科學應用到這些業務中,想辦法將數據科學與業務完美融合,借助業務應用的成功案例為數據科學的後續發展鋪路。

與有更多技能的人合作,加入多元化的團隊不僅可以幫助你更容易獲得更大的成就,你還可以在合作過程中學習到其他成員掌握的知識和擁有的技能。

尾記

種一棵樹最好的時間是十年前,其次是現在。珍惜這次機會,馬上開始你的學習之路,從實際問題入手,步步攻克一系列難關。開弓沒有回頭箭,你必須不斷努力,將全部的信心和熱情投入到工作中,你會驚訝地發現原來自己也可以獲得如此高的成就!

進階指南:如何從數據分析師轉型為數據科學家?