為什麼你應該從學習資料視覺化和操作開始
當我與想要開始學習資料科學的人交談時出現的最大問題之一是:
我不知道從哪裡開始!
最近,我認為當你開始使用資料科學時,R是最好的程式語言。
雖然這有助於您選擇程式語言,但它仍然沒有告訴您要關注哪些技能。
就像選擇程式語言一樣,選擇開始的技能可能會讓人不知所措。
同樣,我直接跟你說:先學習資料視覺化,然後學習資料操作 。
資料視覺化對於發現洞察力至關重要
我建議先學習資料視覺化有幾個原因,但從本質上講,我的理由是我希望您能快速提高生產率。你的時間是你最寶貴的資源,所以你需要養成專注於“大勝利”的習慣。專注於學習高投資回報技巧(高投資回報率技巧)。
對於大多數人來說,開始時的最高ROI技巧是資料視覺化。
要理解為什麼,你需要考慮目標。作為一名資料科學家,你的工作就是在資料中尋找真知灼見。
客戶想要的洞察力。
(如果你需要這方面的證據,只要看看資料科學職位的招聘資訊就可以了。“洞察力”一詞一遍又一遍地出現。
最終,洞察力就是要以不同的方式看待問題,利用資料來發現問題和潛在的解決方案。
視覺化是視覺化的工具。
所以,客戶需要洞察力,洞察力是關於視覺的,而視覺化是幫助你看東西的工具。
資料視覺化對於資料工作流的若干部分非常有用
尋找見解是一個多步驟的過程,資料視覺化對於資料科學工作流程的幾乎每個步驟都非常有用。
尋找見解對於初學者,您需要親自了解這些見解。
當您開始時,資料視覺化可能是用於查詢資料洞察力的最高ROI方法(當您將其與資料操作結合使用時,它會變得更加強大,我將在稍後介紹)。
正如我上面提到的,資料視覺化技術對於探索資料以獲取見解至關重要。視覺化可幫助您作為分析師檢視資料中的重要特徵。
溝通見解視覺化對於傳達您的見解也至關重要。
當你走進與行政人員或商業夥伴的會面時,十分之九是你將不得不向他們展示。你不能談論方程式或演算法。您需要使用正確的資料視覺化來顯示它們。
你幾乎肯定聽過“一張圖片勝千言萬語”這句話。這絕對是真的。通過視覺交流(通過適當的視覺化技術)將擴大您的能力,為您的客戶傳達重要的問題和機會。
在大多數情況下,替代方案是文字。您是否見過幻燈片簡報只是一個“文字牆”?只是很多單詞?眾所周知,這些都是無效的。
雖然簡報設計超出了本博文的範圍,但您需要了解一旦找到客戶需要的見解,您需要展示它們。你需要說服他們。他們需要看到你見過的見解。向業務合作伙伴和高管展示這些見解的最佳方式之一是通過資料視覺化。
最終,您希望能夠與行政人員或業務合作伙伴會面,指向資料視覺化並說“在那裡。在那裡。那是你的問題。你看到圖表上的紅色區域了嗎?這是你需要解決的問題。“
如果您瞭解正確的視覺化技術,那麼以這種方式簡潔地進行溝通是絕對可能的。如果你能做到這一點,你將對你的客戶和合作夥伴非常有價值。
機器學習和模型構建但在某些階段,純資料視覺化並不是工作的最佳工具。隨著資料集變得越來越大,您嘗試回答的問題變得越來越複雜,純資料視覺化可能無法正常工作。您可能需要使用更高階的工具,例如機器學習。
問題是,在使用這些更高階的技術的過程中,您可能仍需要使用資料視覺化。
在構建之前,通常您仍需要使用資料視覺化來探索資料集。您需要視覺化資料以檢視變數的分佈情況,並幫助您選擇最佳技術。
之後,當您獲得這些高階技術的結果時,您可能需要資料視覺化來解釋它們。我們需要探索使用這些更先進的技術生成的結果,以便理解。
換句話說,機器學習技術(和其他高階技術)的結果可能非常難以理解。資料視覺化可幫助您瞭解這些結果。
最後,由於這些高階技術(及其結果)可能有些難以解釋,因此使用資料視覺化技術向業務合作伙伴演示和解釋結果是很常見的。
這是我建議初學者晚點學習機器學習的原因之一。在成功使用這些更高階的技術之前,您幾乎肯定需要了解資料視覺化。
為什麼你接下來應該學習資料操作
當您學習資料視覺化時,最終您將遇到瓶頸。
您的資料格式錯誤,需要更多資料,或者您只需要“深入挖掘”已有的資料。
此時,您應該學習一些基本的資料操作。
這將允許您對資料進行子集化,聚合並以其他方式轉換資料,以幫助您找到更多的見解(您還可以使用資料操作技術合併新資料,儘管這稍微複雜一些)。
在尋找見解方面,您可以將資料視覺化和資料操作相結合,以執行更復雜的資料探索。
資料探索:使用ggplot + dplyr發現見解
有許多可能的發現路徑,但有些路徑比其他路徑更安全,更快。當熟練的求職者冒險進入資料探索的世界時,他們傾向於遵循一條特定的道路......以咒語的形式表達: 首先概述,縮放和過濾,然後按需細節。 ......這是發現的必經之路!
- Stephen Few
最終,我建議先學習資料視覺化,然後再學習資料操作,這是因為你可以將它們結合起來。將資料視覺化和資料操作結合起來並將其與正確的流程結合使用時,您可以快速找到資料中的見解。
這是絕對關鍵的技能。
在開始學習機器學習之前。在深入瞭解高階技術之前。在學習“大資料”工具之前,您絕對需要學習資料探索和分析。
對於大多數初學資料科學專業的學生來說,我相信資料探索的能力是第一個里程碑。
事實證明,這是我建議初學者學習R的最大原因之一。
R的兩個工具ggplot2和dplyr非常適合執行資料探索。它們是我開始時希望擁有的工具。
特別是,您可以使用'%>%'運算子組合它們來進行快速資料探索。
當您將ggplot2與dplyr結合使用時,您可以建立資料的子集和聚合,並立即將dplyr操作的輸出“管道”到ggplot中。
這使您可以輕鬆實現Ben Shneiderman的“概述優先,縮放和過濾,按需細節”的口號。
如上所述,您可以使用視覺化和資料操作來“放大”並以各種方式檢查資料集。
正如Stephen Few所指出的那樣,“視覺路徑”可能是發現的最可靠途徑。
讓我重新說一下:當你開始時,視覺探索是發現見解的最快,最可靠的途徑。您需要首先掌握資料探索。
我希望你立刻高效工作
我推薦的工具(ggplot2和dplyr)有什麼好處,你可以在幾周內學習語法(如果你勤奮,可能會更快)。
ggplot2和dplyr的語法相對簡單。 一旦您瞭解了語法,建立核心視覺化(如散點圖)或稍高階的圖表(如氣泡圖)變得非常容易。 此外,一旦你瞭解了語法,即使看起來很複雜的視覺化也會變得非常容易構建。
一旦學習了語法,您就能夠建立美觀,富有洞察力的資料視覺化。
如果你努力工作並掌握ggplot2和dplyr - 如果你先掌握基礎資料探索 - 那麼你將掌握如何找到資料見解。
原文連結: https://www.r-bloggers.com/why-you-should-start-by-learning-data-visualization-and-manipulation/
版權宣告:作者保留權利,嚴禁修改,轉載請註明原文連結。
資料人網是資料人學習、交流和分享的平臺http://shujuren.org 。專注於從資料中學習到有用知識。 平臺的理念:人人投稿,知識共享;人人分析,洞見驅動;智慧聚合,普惠人人。 您在資料人網平臺,可以1)學習資料知識;2)建立資料部落格;3)認識資料朋友;4)尋找資料工作;5)找到其它與資料相關的乾貨。 我們努力堅持做原創,聚合和分享優質的省時的資料知識! 我們都是資料人,資料是有價值的,堅定不移地實現從資料到商業價值的轉換!