1. 程式人生 > >從零開始學習Python用於資料科學,Python比你想象的要強大!

從零開始學習Python用於資料科學,Python比你想象的要強大!

為什麼是Python?

Python是一種多用途的程式語言,廣泛應用於資料科學,被稱為本世紀最性感的工作。資料科學家通過大資料集挖掘,以獲得洞察力並做出有意義的資料驅動決策。Python是一種通用的程式語言,用於Web開發、網路建設、科學計算等領域。我們將進一步討論python中的一系列令人敬畏的庫,例如用於資料操作和爭論的numpy、ciply和大熊貓,以及用於資料視覺化的matplotlib、seABON和bokeh。

不管你你用Python做什麼,首先你必須要入門Python,所以小編準備了一份Python入門學習資料,進群:943752371即可獲取!

從零開始學習Python用於資料科學,Python比你想象的要強大!

因此,Python&R只是用作資料科學的工具,但作為資料科學家,您需要更多地瞭解資料的統計和數學方面,而且除了所有方面之外,還必須具備良好的領域知識。

在我的這篇文章中,我將為用Python學習資料科學鋪平道路,並將分享一些有用的資源來學習它。記住,資料科學的學習需要時間,不可能在一個月左右完成,它需要大量的實踐、奉獻和自信。所以永遠不要放棄和快樂的學習。

步驟1:學習python的基礎知識

Python是一種很容易開始使用的語言,但是掌握這些成語需要時間,就像任何其他語言一樣。因此,作為新手,首先您需要了解語言的所有基礎知識,一個良好的開端是遵循以下教程:

補習點

&

Google Python類

一旦完成了本教程,那麼是時候邁出更大的一步,瞭解更復雜、更實時的python用法了,最好是少讀一些書和部落格文章:

書籍:

a)學習Python的硬道

b)用Python實現鏜孔的自動化

部落格:

a)前20位Python部落格

b)我最喜歡的部落格之一 : 丹巴德

第二步:基本統計與數學

強烈建議學習統計資料,並將重點放在編寫示例上,最好是在Python或R.

最著名的是統計學習系列。這是一個很好的入門統計建模/機器學習與應用,在R.閱讀ISLR之前,首先跳到ESLR。

(A)統計學習簡介

b)統計學習的要素

如果你想要一件Python重的東西,請看這本書“思考統計”(ThinkStats)。

這是一個很好的MOOC來學習資料科學所需的基本統計資料:

— R專業化統計

利用這個可怕的可汗學院系列來複習你的高中統計和數學知識:

高中統計

步驟3:用於資料分析的Python

一旦你完成了第一步和第二步,那麼是時候用一些真正的東西弄髒你的手了,首先你需要安裝Anaconda

Anaconda下載

Anaconda的優勢:

a)使用者級安裝所需的python版本

(B)能夠完全獨立於系統庫或管理特權來安裝/更新軟體包

(C)附帶Numpy、Sciy、PyQt、SpyderIDE等。或者在Minimal/alacarte版本(Miniconda)中,您可以在需要時安裝您想要的東西。

這是Anaconda附帶的工具:

a)木星筆記本IPython筆記本現在被稱為木星筆記本。它是一個互動式的計算環境,在這個環境中,您可以將程式碼執行、富文字、數學、情節和豐富的媒體結合在一起。

您可以在本地使用此筆記本進行資料分析和繪圖,並將資料視覺化並最終共享。

  • 安裝Anaconda之後,從終端開啟IPython筆記本:

從零開始學習Python用於資料科學,Python比你想象的要強大!

  • 在預設瀏覽器中開啟筆記本:

從零開始學習Python用於資料科學,Python比你想象的要強大!

  • 在筆記本單元格中執行Python程式碼

從零開始學習Python用於資料科學,Python比你想象的要強大!

(B)Numpy

NumPy是Python用於科學計算的基本包。除其他外,其中包括:

1)一個強大的N維陣列物件。

2)精密(廣播)功能

3)C/C+和Fortran程式碼整合工具

4)有用的線性代數、傅立葉變換和隨機數能力

URL:Numpy

c)熊貓

熊貓是一個為Python程式語言編寫的用於資料操作和分析的軟體庫。

檢視我在那裡的位置,獲得關於Pandas的簡單而簡短的介紹。

URL:熊貓

書:用於資料分析的Python

d)Matplotlib

Matplotlib是一個Python2D繪相簿,它以各種硬拷貝格式和跨平臺互動環境生成出版物質量數字。Matplotlib可以用於Python指令碼、Python和IPython shell、jupyter筆記本、Web應用伺服器和四個圖形使用者介面工具包。

URL:Matplotlib

檢視我的位置,獲得關於matplotlib的簡單而簡短的介紹。

e)海運

Seborn是一個基於matplotlib的Python視覺化庫。它為繪製有吸引力的統計圖形提供了一個高階介面。

URL:海航

請檢視使用上述所有庫進行資料分析的木星膝上型電腦的以下數字:

(A)使用PADAS匯入資料:

從零開始學習Python用於資料科學,Python比你想象的要強大!

(B)資料分析和清理:

從零開始學習Python用於資料科學,Python比你想象的要強大!

(C)使用Ploly繪製圖表(或者,還可以使用matplotlib和海運)

從零開始學習Python用於資料科學,Python比你想象的要強大!

c)在木星筆記本上繪製方框圖、條形圖和熱圖

第4步:機器學習

機器學習是一門讓計算機在不被明確程式設計的情況下行動的科學。機器從大量的培訓資料中學習,並幫助對新的資料集進行預測或分類。

它分為以下兩類:

(I)監督學習(引數/非引數演算法、支援向量機、核、神經網路)。

(2)無監督學習(聚類、降維、推薦系統、深度學習)。

安裝PythonScikit學習朱庇特筆記本中機器學習練習圖書館。它有非常好的檔案可循:

從零開始學習Python用於資料科學,Python比你想象的要強大!

最佳MOOC首先:

a)斯坦福機器學習

b)基於Udacity的機器學習介紹

關於這個問題有很多書可讀,而且都寫得很好,所以我不想特別推薦任何一本書。所有的書都同樣適合閱讀和閱讀。

第五步:實踐與實踐

最後但並非最不重要的是,練習和艱苦的工作是關鍵,很多次我在Reddit&Quora上看到了一些問題,所以我可以從哪裡獲得用於分析的開源資料。我們是在2017年,到處都是豐富的資料,只是你需要挑選這些資料,並開始玩弄它。我個人最喜歡練習的是卡格爾。在這裡,您可以自己學習,並檢視核心,以檢視一些最好的資料科學家的工作。