1. 程式人生 > >深度解析資料分析、大資料工程師和資料科學家的區別

深度解析資料分析、大資料工程師和資料科學家的區別

資料越來越多的影響並塑造著那些我們每天都要互動的系統。不管是你使用Siri,google搜尋,還是瀏覽facebook的好友動態,你都在消費者資料分析的結果。我們賦予了資料如此大的轉變的能力,也難怪近幾年越來越多的資料相關的角色被創造出來。

這些角色的職責範圍,從預測未來,到發現你周圍世界的模式,到建設操作著數百萬記錄的系統。在這篇文章中。我們將討論不同的資料相關的角色,他們如何組合在一起,並且幫你找出那些角色是適合你自己的。

什麼是資料分析師?

資料分析通過談論資料來像他們的公司傳遞價值,用資料來回答問題,交流結果來幫助做商業決策。資料分析師的一般工作包括資料清洗,執行分析和資料視覺化。

取決於行業,資料分析師可能有不同的頭銜(比如:商業分析師,商業智慧分析師,業務/運營分析師,資料分析師)不管頭銜是什麼,資料分析師是一個能適應不同角色和團隊的多面手以幫助別人做出更好的資料驅動的決策。

深度解析資料分析師

資料分析師擁有把傳統的商業方式轉換成資料驅動的商業方式的潛質。雖然資料分析師是資料廣泛領域的入門水平,但不是說所有的分析師都是低水平的。資料分析師不僅僅精通技術工具,還是高效的交流者,他們對於那些把技術團隊和商業團隊隔離的公司是至關重要的。

他們的核心職責是幫助其他人追蹤進展,和優化目標。市場人員如何使用分析的資料取幫助他們安排下一次活動?銷售人員如何衡量哪種型別人群能更好的爭取?CEO如何更好的理解最最近公司發展背後潛在原因?這些問題就需要資料分析師通過資料分析和呈現結果來給答案。他們從事的這些和資料打交道的複雜工作能夠為他們所在的組織貢獻價值。

一個高效的資料分析師能夠在商業決策的時候摒棄臆想和猜測,並且幫助整個組織快速成長。資料分析師必須是一個橫跨在不同團隊中的有效橋樑。通過分析新的資料,綜合不同的報告,翻譯整體的產出。反過來,這也能幫助組織對於自身的發展時刻保持警覺。

公司的不同需求決定了資料分析師的技能要求,但是下面這些應該是通用的:

清洗和組織未加工的資料

使用描述性統計來得到資料的全域性檢視

分析在資料中發現的有趣趨勢

建立資料視覺化和儀表盤來幫助公司解讀說明和使用資料做決策

呈現針對商業客戶或者內部團隊的科學分析的結果

資料分析師對公司科技和分科技的兩面都帶來了重大的價值。不管是進行探索性的分析還是解讀經營狀況的儀表盤。分析師都促進了團隊之間更緊密的連線。

什麼是資料科學家?

資料科學家是使用他們在統計學和建設機器學習模型方面的專業技術去進行關鍵商業問題預測的專家。

資料科學家也需要像資料分析師一樣去清洗、分析、視覺化資料。然而一個數據科學家需要在這些技能上更深入也更專業,他們還可以去訓練和優化機器學習的模型。

深度解析資料科學家

資料科學家能產生巨大的價值,他們處理更多開放式的問題並且利用他們專業的統計學和演算法知識發揮更大槓桿的作用。如果說資料分析師專注於從過去和現在資料層面來理解資料的話,那麼資料科學家就是專注於做出對未來更可信的預測。

資料科學家通過有監督學習(分類、迴歸)和無監督學習(聚類,神經網路,異常監測?)機器學習模型來揭開隱藏著的規律。本質上來說他們是訓練那些能讓他們更好的識別模型和產出精確預測效果的數學模型的人。

下面是資料科學家完成的一些例子:

評估統計學模型來決定分析有效性

使用機器學習來建設更好的預測演算法

測試和持續提升模型精確度

進行資料視覺化來概括分析的結論

資料科學家為預測和理解資料帶來了一種完全嶄新的方式。雖然資料分析師可能也可以去描述趨勢和為商業團隊傳遞這些結果。但是資料科學家能剔除新的問題並且可以去建模來做出對新資料的預測。

什麼是資料工程師?

資料工程師建設和優化系統。這些系統幫助資料科學家和資料分析師開展他們的工作。每一個公司裡面和資料打交道的人都需要依賴於這些資料是準確的和可獲取的。資料工程師保證任何資料都是正常可接收的,可轉換的,可儲存的並且對於使用者來說是可獲取的。

深度解析資料工程師

資料工程師建立了資料分析師和資料科學家依賴的基礎。資料工程師對構造資料管道並且經常需要去使用複雜的工具和技術來管理資料負責。不想前面說的兩個事業的路徑,資料工程師更多的是朝著軟體開發能力上學習和提升。

在比較大的組織中,資料工程師需要關注不同的方面:比如使用資料的工具,維護資料庫,建立和管理資料管道。不管側重於什麼,一個好的資料工程師能夠保證資料科學家和資料分析師專注於解決分析方面的問題,而不是一個數據源一個數據源的去移動、操作資料。

資料工程師往往更加註重建設和優化。下面的任務的示例是資料工程師通常的工作:

為資料消費開發API

在現存的資料管道中整合資料集

在新資料上運用特徵轉換提供給機器學習模型

持續不斷的監控和測試系統保證效能優化

你的資料驅動的事業路徑:

現在你已經瞭解了這三種資料驅動的工作了,但是問題還在,你適合哪一種呢?雖然都是和資料相關,但是這三種工作是截然不同的。

資料工程師主要工作在後端。持續的提升資料管道來保證資料的精確和可獲取。他們一般利用不同的工具來保證資料被正確的處理了,並且當用戶要使用資料的時候保證資料是可用的。一個好的的資料工程師會為組織節省很多的時間和精力。

資料分析師一般用資料工程師提供的現成的介面來抽取新的資料,然後取發現數據中的趨勢。同時也要分析異常情況。資料分析師以一種清晰的方式來概括和提出他們的結果來讓非技術的團隊更好的理解他們現在在做的東西。

最後,資料科學家更傾向於基於分析的發現和在更多可能性上的調查來獲得方向。不管是訓練模型還是進行統計分析,資料科學家試圖去對未來要發生的可能性提出一個更好的預測。

不管你的特殊的路徑是什麼,好奇心都是這三個職業最本質的要求。使用資料來更好的提問和進行精確的實驗是資料驅動事業的全部目標。此外,資料科學家領域是不斷的進化的,你必須要有強大的能力去持續不斷的學習。

有一句話叫做三人行必有我師,其實做為一個開發者,有一個學習的氛圍跟一個交流圈子特別重要這是一個我的大資料交流學習群531629188不管你是小白還是大牛歡迎入駐,正在求職的也可以加入,大家一起交流學習,話糙理不糙,互相學習,共同進步,一起加油吧。