1. 程式人生 > >0012-什麼是資料科學工作臺?為什麼資料科學家需要它?

0012-什麼是資料科學工作臺?為什麼資料科學家需要它?

溫馨提示:要看高清無碼套圖,請使用手機開啟並單擊圖片放大檢視。

資料科學本質上是一個探索和創新的過程,因為通常對於現在的問題沒有明確的答案,也沒有獲得答案的確定的途徑。資料科學家用資料和他們的經驗研究問題,探索資料,建立模型,然後通過這些再來決定選擇哪些引數和過程來處理手頭的具體問題。這使得分享與協作變得非常重要,因為需要資料科學家團隊裡的每個人都能共享彼此的研究和知識,並最終產生最佳的結果。

資料科學隨著大資料的技術一起發展,新的技術一直都在出現。這種變化從一些公司的資料科學家的背景和技能就就看得出來。資料科學家使用各種語言和工具包,包括開源的軟體比如R,Python,Spark,以及商業軟體比如SAS和SPSS,對於商業工具他們可能受過專門的培訓也會非常擅長。為了讓資料科學取得成功,各個公司都會讓資料科學家高效的工作,讓他們用最好的技術來解決手頭的問題,而不受其背景的限制。

關於這點,資料科學工作臺能提高資料科學家的工作效率和產出。資料科學工作臺是一個應用程式,它允許資料科學家在本地環境或者部分企業環境下選擇他們自己喜歡的技術,語言和庫來工作。資料科學工作臺,可以讓資料科學家訪問儲存在其機器和公司中的工具。例如資料科學工作臺可以給資料科學家提供Jupyter或者Zeppelin這種notebook,同時也提供R或者Python這種廣泛使用的統計語言的開發環境。

資料科學家需要花大量的時間和精力來搭建他們的分析環境。這個搭建過程包括識別資料,從大量資料來源收集資料並且匯入到資料分析平臺上,然後開始分析。通過工作臺,資料科學家只需要最簡單的設定就可以直接連線到資料湖裡的資料來源。一旦連線到資料來源後,資料科學家就可以用工作臺提供的notebook,使用Spark或者其他機器學習技術連線到叢集並開始工作。

對於資料科學家來說一件很重要的事就是和同行或者同事交流意見和想法。資料科學工作臺提供了一個交流分享的視覺化環境,這樣資料科學家可以和不同技術領域的專家一起交流分享他們的研究成果。團隊成員不僅可以分享程式碼,還可以把整個包括資料集的可恢復的研究環境打包分享出去,這樣團隊的其他成員可以直接開始研究而不需要繁瑣的設定。工作臺提供的協作模式不僅可以促進學習交流和思想碰撞,還可以讓不同技術領域的專家們一起預測模型。使用來自不同團隊的條件和用例來測試模型,提高了預測模型的魯棒性和預測能力。同時,在研究問題的過程中,資料科學家會發現程式碼,手冊或者操作教程都可以有效的解決手頭上的問題。市場上一些領先的工作臺還可以讓資料科學家們把這些都整合到當前的專案中。

資料工作臺的所有這些因素,使得資料科學家可以自給自足,提高建模效率,更重要的是,加快了預測和分析。

參考英文原文:https://zh.hortonworks.com/blog/data-science-workbench-data-scientists-need-one/

醉酒鞭名馬,少年多浮誇! 嶺南浣溪沙,嘔吐酒肆下!摯友不肯放,資料玩的花!
溫馨提示:要看高清無碼套圖,請使用手機開啟並單擊圖片放大檢視。
0012-什麼是資料科學工作臺?為什麼資料科學家需要它?