1. 程式人生 > >手把手教你學Numpy,從此處理資料不再慌「一」

手把手教你學Numpy,從此處理資料不再慌「一」

噹噹噹,我又開新坑了,這次的專題是Python機器學習中一個非常重要的工具包,也就是大名鼎鼎的numpy。

所以今天的文章是Numpy專題的第一篇。

俗話說得好,機器學習要想玩的溜,你可以不會寫Python,但一定不能不會調庫(大霧)。Numpy可以說是Python中最基礎也是最重要的工具庫了,要用Python做機器學習,玩轉各種框架,Numpy是必須要會的。像是TensorFlow、pytorch這些知名框架都是基於Numpy進行計算的,可想而知它的重要性。

Numpy存在的必要性

網上關於Numpy的介紹非常多,但說來說去無非是一個Python中數值計算的非常重要的基礎包,可以用來很方便地做一些矩陣和大資料的運算。

Numpy是做什麼的我們很好理解,但是我們可能更加好奇它更深層次的意義究竟是什麼?關於這個問題我們從淺到深不停地追問,可以得到許多不同的答案。

最淺層的回答很簡單,Numpy很方便,計算速度快,可以很方便地進行矩陣運算。在Andrew的課程當中,他曾經演示過,同樣的矩陣運算,如果我們通過Python中的迴圈實現速度會比呼叫Numpy慢上至少上百倍。這個差異顯然是非常可怕的。

但為什麼Numpy會更快呢?

我們追問下去,又會得到一個新的答案。因為Numpy包底層是通過C++實現的,顯然C++運算比Python快得多,所以Numpy自然就更快了。

難道Numpy就只是因為C++更快這麼簡單嗎?

這個問題已經超越了Numpy本身,我們需要從Python的特性來回答了。Python是一門解釋型語言,也就是說當我們執行Python的時候,其實是執行了一個Python的直譯器。由Python的直譯器來解釋執行Python的每一行程式碼。

如果我們把直譯器理解成虛擬機器,把Python執行的程式碼理解成虛擬機器當中的程式。如果我們虛擬機器多開的話,是很難保證執行緒安全的。為了解決這個問題,Python設計了GIL機制,也就是全域性直譯器鎖,它保證了同一時刻最多隻有一個直譯器執行緒在執行。

這個機制保證了執行緒安全,但是也限制了Python多執行緒的使用。Python的多執行緒本質上是偽多執行緒,因為直譯器只有一個執行緒在跑。所以如果我們想要通過多執行緒併發來加速計算的話,這是不可能的。

而矩陣和向量的一些操作是可以通過多執行緒併發來加速計算的,而Python本身的特性導致了Python不能執行這樣的操作。那麼通過Python呼叫C++實現的計算庫也就是唯一的選擇了。實際上不僅是Numpy,幾乎所有Python的計算庫,都是通過Python呼叫其他語言實現的。Python本身只是最上層的呼叫方。

理解了這點除了對於Python可以有更加清晰的認識之外,也有助於之後學習TensorFlow等其他框架。

Numpy中的n維陣列

Numpy之所以好用,是因為我們可以通過Numpy很方便地建立高維的陣列和矩陣。

舉個例子,比如在原生Python當中,當我們需要建立一個二維陣列的時候,往往需要些很長的定義。比如我們想要一個10 * 10的陣列:

arr = [[0 for _ in range(10)] for _ in range(10)]

但是在Numpy當中就會很方便,只需要一行。

import numpy as np
arr = np.zeros((10, 10))

第一行當中我們引入了numpy,為了編碼方便,我們將它重新命名成了np。這個是業內慣用做法,幾乎所有使用numpy的程式設計師都會這麼重新命名。

在numpy當中,儲存高維陣列的物件叫做ndarray,與之對應的是儲存矩陣的mat。其實這兩者區別不大,支援矩陣的運算,ndarray基本上也都支援。我們有這麼一個印象即可,關於mat內容我們會在之後介紹。

我們建立除了ndarray之後,關於獲取ndarray基本資訊的api大概有下面四個。

第一個是通過.ndim檢視ndarray的維度,也就是檢視這是一個幾維的陣列:

第二個是通過.shape獲取這個ndarray在各個維度的大小:

第三個是通過.dtype獲取這個ndarray中元素的型別:

最後一個是tolist()方法,可以將一個ndarray轉化成Python原生的list進行返回。

ndarray

那麼我們怎麼建立numpy中的ndarray呢?

大概也有幾種辦法,首先,既然numpy中的ndarray可以轉換成Python原生的list,同樣Python中原生的list也可以轉換成numpy中的ndarray。

和轉換變數型別的語法很像,我們通過np.array()轉換即可。

nums = [1, 3, 4, 6]
arr = np.array(nums)

除了通過Python中原生的list轉換,我們還可以根據自己的需要建立新的ndarray。numpy建立array的方法有很多,我們先來介紹一下其中比較基礎的幾種。

創建出一個range

np.arange可以生成一個序列,有些類似於Python中原生的range。不過它更加靈活,我們可以之傳入一個整數,它會返回一個從0開始的序列:

np.arange(10)
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

我們也可以指定首尾元素和間隔,numpy會自動幫我們生成一個等差序列:

np.arange(1, 5, 0.5)
array([1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5])

除此之外,numpy中還提供了ones和zeros兩個api,可以生成全為0和全為1的元素。

np.zeros((3, 4))
array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])
np.ones((2, 3))
array([[1., 1., 1.],
       [1., 1., 1.]])

我們還可以使用eye或者是identity生成一個N*N的單位矩陣:

np.eye(3)
array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

除此之外,還有一個full的api可以指定shape和數值,用我們指定的數值填充出一個指定大小的陣列來:

np.full((3, 4), 3)
array([[3, 3, 3, 3],
       [3, 3, 3, 3],
       [3, 3, 3, 3]])

但是這個api我們用的不多,因為我們可以用ones生成一個全為1的陣列,然後乘上一個我們想要的值,就等價於full。

另外,ones, zeros, full這幾個api還有一個對應的like方法。所謂的like方法就是我們傳入另外一個ndarray代替shape,numpy會根據這個ndarray的形狀生成一個對應形狀的新array。

我們來看個例子吧,首先我們生成一個順序的序列:

ex1 = np.arange(10)

然後我們通過zeros_like方法生成一個同樣大小的全為0的矩陣:

ex2 = np.zeros_like(ex1)

它其實等價於:

np.zeros(ex1.shape)

其他幾個like方法也大同小異,因為可替代性很強,所以我也用的不多。

numpy支援的型別

numpy支援的資料型別很多,除了常用的int和float之外,還支援複數型別的complex,某種程度上來說和golang支援的型別比較接近。

其中int型別一共分為int8,int32,int64和int128,其中每一種又分為帶符號的和不帶符號的。例如int8就是帶符號的8位二進位制表示的int,而uint8則是不帶符號位的。浮點數沒有無符號浮點數,一共分為float16,float32,float64和flaot128。

複數也有三種,分別是complex64,complex128和complex256。除此之外還有string_和object以及unicode_這三種類型。

我們可以通過呼叫astype方法更改ndarray中所有變數的型別:

ex1 = np.arange(10)
ex1.astype(np.float64)
array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

除了人為轉換之外,我們還可以在建立的時候通過dtype這個引數來表示我們想要建立的資料的型別,這樣可以避免之後轉換的麻煩。

ex1 = np.arange(10, dtype=np.float32)

結尾

這篇文章當中我們不僅介紹了Numpy的建立的方法,還聊了Python這門語言的一些特性。正是因為Python本身多執行緒的限制,導致它在需要高併發計算的場景下效能很差。才會需要通過Python去呼叫C++或者是其他語言的底層實現。這也是為什麼Python經常被稱為膠水語言的原因。

Numpy可以認為是Python進行機器學習的基礎,當然除了Numpy之外,像是pandas、matplot以及scikit-learn等庫也是必不可少的。我們會從Numpy開始,一點一點把這些常用的庫都給大家分享一遍。

各位看官大人,喜歡的話,點個關注吧~

![](https://user-gold-cdn.xitu.io/2020/5/13/1720b6df52b23d93?w=258&h=258&f=png&