力壓 R,Python 在資料科學領域風生水起
TIOBE 最新發布的 9 月程式語言排行榜中,Python 憑 4.67% 的增速以 0.26% 的優勢力壓 C++,逆襲成功進入 Top 3。
而近一年勢頭不滅的 Python 在資料分析領域,是專家們的必備技能。隨著 IT 行業的增長,對有經驗的資料科學家的需求也水漲船高,而 Python 也一躍而成最受歡迎的語言。本文旨在介紹分析資料的基本知識,並利用 Python 建立一些漂亮的資料視覺化。
概要
資料科學領域,非 Python 語言莫屬?
Python 是最適合資料科學家的語言,這一點毫無爭議。下面幾點可以幫你理解為什麼從事資料科學的人選擇了 Python:
你知道最大的好處是什麼嗎?資料科學家是目前收入最高的職位之一,根據 Indeed.com 的資料,平均年薪為 $130,621。
Python 由 Guido Van Rossum 於 1989 年建立。它是個解釋語言,擁有動態語義。它在所有的平臺上可以免費使用。Python 是:

為資料科學中的 Python 安裝 Jupyter
我們先來在自己的系統上安裝 Jupyter。請按照以下步驟進行:
我建議你使用 Anaconda 發行版(https://www.anaconda.com/download/)安裝 Python 和 Jupyter。裝好Jupyter 之後,可以在命令列中輸入“Jupyter Notebook”即可在預設瀏覽器中開啟。現在我們在 Jupyter 上寫個最基本的程式。
name=input( "Enter your Name:") print( "Hello", name)
要執行這段程式碼,可以按下“Shift+Enter”,即可檢視輸出。如下面的截圖所示:

資料科學中的 Python 的基礎
現在可以開始程式設計了。為了程式設計,你需要先了解以下的基礎知識:
關於 Python的更多資訊和實際的實現,可以參考這篇文章:Python 入門(https://www.edureka.co/blog/python-tutorial/)。
資料科學中的 Python 庫
這是 Python 在資料科學中發揮力量的部分。Python 擁有大量用於科學計算、分析、視覺化等的庫。一些庫如下:
Demo:實際應用
問題描述:給定一組資料集,該資料集是由多種資料組成的綜合統計資料,如監獄設施的分佈和情況、監獄的擁擠程度、監獄中的犯人型別,等等。請在這個資料集上做描述性的統計,並從資料中找出有用的資訊。下面是幾個任務:
載入資料使用以下程式碼:
importpandas aspd importmatplotlib.pyplot asplot %matplotlib inline file_name = "prisoners.csv" prisoners = pd.read_csv(file_name) prisoners

然後用 Pandas 的 describe 方法,只需輸入以下語句:
prisoners.describe()

然後進行資料操作:
prisoners[ "total_benefited"]=prisoners.sum(axis=1) prisoners.head()

最後,用 Python 做一些資料視覺化。程式碼如下:
importnumpy asnp xlabels = prisoners[ 'STATE/UT'].values plot.figure(figsize=( 20, 3)) plot.xticks(np.arange(xlabels.shape[ 0]), xlabels, rotation = 'vertical', fontsize = 18) plot.xticks plot.bar(np.arange(prisoners.values.shape[ 0]),prisoners[ 'total_benefited'],align = 'edge')
