在Python和R中執行相同的任務
根據KDD調查,較少的受訪者(按比例計算)在2017年僅使用R而不是2018年。同時,更多的受訪者(按比例)在2017年僅使用Python而不是2016年。
讓我們以此為藉口快速瞭解當我們在兩個系統中嘗試任務時會發生什麼。
對於我們的任務,我們選擇了在僅有8GB記憶體的機器上直接讀取50,000,000行50列資料集到記憶體中是痛苦的操作。
在Python中,Pandas包大約需要6分鐘來讀取資料,然後就可以準備工作了。
在R中,當記憶體不足時,utils::read.csv()和readr::read_csv()失敗。因此,如果您對R的看法是“基本只有R”,或“基本只有R + tidyverse”,或“基本只有tidyverse”,讀取這個檔案是一項“艱鉅的任務”。
按照上面的狹隘觀點,如果想要完成工作,除了使用Python之外別無選擇。
或者,我們可以記住data.table。而data.table顯然不是tidyverse資料的一部分。data.table在R領域已經有12年的歷史了。它可以讀取資料,並且可以在不到一分鐘的時間內以R語言工作。
總之,在緊急情況下完成任務:學習Python或學習data.table。而且,在我看來,“tidyverse first teaching”(通常是“tidyverse only teaching”的程式碼)從長遠來看可能並不適合R社群。
作者: 原文連結: https://www.r-bloggers.com/running-the-same-task-in-python-and-r/
版權宣告:作者保留權利,嚴禁修改,轉載請註明原文連結。
資料人網是資料人學習、交流和分享的平臺http://shujuren.org 。專注於從資料中學習到有用知識。 平臺的理念:人人投稿,知識共享;人人分析,洞見驅動;智慧聚合,普惠人人。 您在資料人網平臺,可以1)學習資料知識;2)建立資料部落格;3)認識資料朋友;4)尋找資料工作;5)找到其它與資料相關的乾貨。 我們努力堅持做原創,聚合和分享優質的省時的資料知識! 我們都是資料人,資料是有價值的,堅定不移地實現從資料到商業價值的轉換!