1. 程式人生 > >數值程式設計工具:NumPy的詳細教程

數值程式設計工具:NumPy的詳細教程

目錄

1.準備工作

2.基礎篇

  • 一個例子
  • 建立陣列
  • 列印陣列
  • 基本運算
  • 通用函式(ufunc)
  • 索引,切片和迭代

3.形狀操作

  • 更改陣列的形狀
  • 組合(stack)不同的陣列
  • 將一個數組分割(split)成幾個小陣列

4.複製和檢視

  • 完全不拷貝
  • 檢視(view)和淺複製

5.深複製

  • 函式和方法(method)總覽

6.進階

  • 廣播法則(rule)

7.花哨的索引和索引技巧

  • 通過陣列索引
  • 通過布林陣列索引
  • ix_()函式
  • 用字串索引

8.線性代數

  • 簡單陣列運算
  • 矩陣類
  • 索引:比較矩陣和二維陣列

9.技巧和提示

  • “自動”改變形狀
  • 向量組合(stacking)
  • 直方圖(histogram)

在標準安裝的Python中,提供了arraylist用於儲存批量的資料,array可以直接儲存一組一維的資料,但不支援高維,缺乏各種數值和矩陣運算函式,並不適合做數值運算、

若使用用列表list儲存一組值,這些值可以是任意型別,因此list中所儲存的是元素的指標。對於數值運算來說這種資料結構顯得浪費記憶體,計算也較為耗時。

數值程式設計工具NumPy提供了兩種基本的物件:ndarray(N-dimensional array object)和 ufunc(universal function object)。ndarray用於儲存單一資料型別的多維陣列,而ufunc則是一系列對陣列進行操作處理的函式。

由於對NumPy的使用仍處於初級階段,因此以下內容借鑑了網上一些技術文件和博文。

一、準備工作

如果想要執行以下例程,需要確保Python和Numpy已經成功安裝在電腦上,你可以選擇一款目前比較流行的Python科學計算髮行版進行安裝,部落格:http://blog.csdn.net/rumswell/article/details/8927603 介紹了幾款常用的Python發行版,我本人使用的是Python(x,y),numpy,matplotlib(提供繪圖功能),Scipy(在NumPy的基礎上提供了很多科學模組),spyder一併安裝了。

二、基礎篇

NumPy的主要物件是存放同一種資料型別的多維陣列。你可以把物件看成是由一個正整數索引的元素矩陣。在NumPy中維度叫做軸(axes),軸的個數叫做秩(rank)。對線性代數有了解的話,這些概念都不會陌生。

簡單例子如下:

3維空間中的一個點,其座標為[5, 2, 1],其秩rank = 1,該陣列只有一個軸,軸的長度為3。

[[ 1, 0, 0],
[ 0, 1, 0],
[ 0, 0, 1]]

陣列的秩rank = 2,有兩個維度其長度均為3。

[[ 1, 0],
[ 0, 1],
[ 1, 1]]

陣列的秩rank = 2,有兩個維度,第一維的長度為3,第二維的長度為2。

文章開頭提到,numpy.ndarray和標準Python庫類array.array並不相同,後者只處理一維陣列和提供少量功能。更多重要ndarray物件屬性如下:

ndarray.ndim,陣列軸的個數。在python的世界中,軸的個數被稱作秩,這與線性代數中秩的概念並不同,一維陣列的秩為1,二維陣列的秩為2,以此類推。

ndarray.shape,陣列的維度。這是一個指示陣列在每個維度上大小的整數元組。例如一個n排m列的矩陣,它的shape屬性將是(n, m),這個元組的長度顯然是秩,即維度或者ndim屬性

ndarray.size,陣列元素的總個數,等於shape屬性中元組元素的乘積。

ndarray.dtype,一個用來描述陣列中元素型別的物件,可以通過創造或指定dtype使用標準Python型別。另外NumPy提供它自己的資料型別。

ndarray.itemsize,陣列中每個元素的位元組大小。例如,一個元素型別為float64的陣列itemsiz屬性值為8(=64/8),又如,一個元素型別為complex32的陣列item屬性為4(=32/8).

ndarray.data,包含實際陣列元素的緩衝區,通常我們不需要使用這個屬性,因為我們總是通過索引來使用陣列中的元素。

1.一個例子

>>> from numpy import *
>>> a = arange(15).reshape(3, 5)
>>> a
array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])
>>> a.shape
(3, 5)
>>> a.ndim
2
>>> a.dtype.name
'int32'
>>> a.itemsize
4
>>> a.size
15
>>> type(a)
numpy.ndarray
>>> b = array([6, 7, 8])
>>> b
array([6, 7, 8])
>>> type(b)
numpy.ndarray

2.建立陣列

Numpy提供了好幾種方法用於建立陣列,以下給出常見的例子。

例如,你可以使用array函式從常規的Python列表和元組創造陣列。所建立的陣列型別由原序列中的元素型別推導而來。

>>> from numpy  import *
>>> a = array( [2,3,4] )
>>> a
array([2, 3, 4])
>>> a.dtype
dtype('int32')
>>> b = array([1.2, 3.5, 5.1])
>>> b.dtype

dtype(‘float64’) 一個常見的錯誤包括用多個數值引數呼叫array而不是提供一個由數值組成的列表作為一個引數。

>>> a = array(1,2,3,4)    # WRONG
>>> a = array([1,2,3,4])  # RIGHT

陣列將序列包含序列轉化成二維的陣列,序列包含序列包含序列轉化成三維陣列等等。

>>> b = array([(1.5, 2., 3.), (4., 5., 6.)])
>>> b
array([[ 1.5,  2. ,  3. ],
       [ 4. ,  5. ,  6. ]])

陣列型別可以在建立時顯示指定,以下例子中將陣列型別設定為複數型別:

>>> c = array([[1,2], [3,4]], dtype=complex)
>>> c
array([[1.+0.j, 2.+0.j],
       [3.+0.j, 4.+0.j]])

通常,陣列的元素開始都是未知的,但是它的大小已知。因此,NumPy提供了一些使用佔位符建立陣列的函式。這最小化了擴充套件陣列的需要和高昂的運算代價。

函式function建立一個全是0的陣列,函式ones建立一個全1的陣列,函式empty建立一個內容隨機並且依賴與記憶體狀態的陣列。預設建立的陣列型別(dtype)都是float64。

>>> zeros( (3,4) )
array([[0.,  0.,  0.,  0.],
       [0.,  0.,  0.,  0.],
       [0.,  0.,  0.,  0.]])
>>> ones( (2,3,4), dtype=int16 )                # dtype can also be specified
array([[[ 1, 1, 1, 1],
        [ 1, 1, 1, 1],
        [ 1, 1, 1, 1]],
       [[ 1, 1, 1, 1],
        [ 1, 1, 1, 1],
        [ 1, 1, 1, 1]]], dtype=int16)
>>> empty( (2,3) )
array([[  3.73603959e-262,   6.02658058e-154,   6.55490914e-260],
       [  5.30498948e-313,   3.14673309e-307,   1.00000000e+000]])

為了建立一個數列,NumPy提供一個類似arange的函式返回陣列而不是列表:

>>> arange(10, 30, 5)
array([10, 15, 20, 25])
>>> arange(0, 2, 0.3)   # it accepts float arguments
array([ 0. , 0.3, 0.6, 0.9, 1.2, 1.5, 1.8])

當arange使用浮點數引數時,由於有限的浮點數精度,通常無法預測獲得的元素個數。因此,最好使用函式linspace去接收我們想要的元素個數來代替用range來指定步長。

其它函式array, zeros, zeros_like, ones, ones_like, empty, empty_like, arange, linspace, rand, randn, fromfunction, fromfile 等等,可以參考:NumPy示例

3.列印陣列

當你列印一個數組,NumPy以類似巢狀列表的形式顯示它,但是呈以下佈局:

  • 最後的軸從左到右列印;
  • 次後的軸從頂向下列印;
  • 剩下的軸從頂向下列印,每個切片通過一個空行與下一個隔開。

一維陣列被列印成行,二維陣列成矩陣,三維陣列成矩陣列表。

>>> a = arange(6)                         # 1d array
>>> print a
[0 1 2 3 4 5]
>>>
>>> b = arange(12).reshape(4,3)           # 2d array
>>> print b
[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]
>>>
>>> c = arange(24).reshape(2,3,4)         # 3d array
>>> print c
[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]

如果一個數組用來列印太大了,NumPy自動省略中間部分而只打印角落:

>>> print arange(10000)
[   0    1    2 ..., 9997 9998 9999]
>>>
>>> print arange(10000).reshape(100,100)
[[   0    1    2 ...,   97   98   99]
 [ 100  101  102 ...,  197  198  199]
 [ 200  201  202 ...,  297  298  299]
 ...,
 [9700 9701 9702 ..., 9797 9798 9799]
 [9800 9801 9802 ..., 9897 9898 9899]
 [9900 9901 9902 ..., 9997 9998 9999]]

禁用NumPy的這種行為並強制列印整個陣列,你可以設定printoptions引數來更改列印選項。

>>> set_printoptions(threshold='nan')

4.基本運算

陣列的算術運算是按元素的。新的陣列被建立並且被結果填充。

>>> a = array( [20,30,40,50] )
>>> b = arange( 4 )
>>> b
array([0, 1, 2, 3])
>>> c = a-b
>>> c
array([20, 29, 38, 47])
>>> b**2
array([0, 1, 4, 9])
>>> 10*sin(a)
array([ 9.12945251, -9.88031624,  7.4511316 , -2.62374854])
>>> a<35
array([True, True, False, False], dtype=bool)

不像許多矩陣語言,NumPy中的乘法運算子*表示兩個矩陣對應下標的元素進行乘法計算,而矩陣乘法可以使用dot函式實現。

>>> A = array([[1,1],
...             [0,1]])
>>> B = array([[2,0],
...             [3,4]])
>>> A*B                         
array([[2, 0],
       [0, 4]])
>>> dot(A,B)                  
array([[5, 4],
       [3, 4]])

有些操作符像+=*=被用來更改已存在陣列而不建立一個新的陣列。

>>> a = ones((2,3), dtype=int)
>>> b = random.random((2,3))
>>> a *= 3
>>> a
array([[3, 3, 3],
       [3, 3, 3]])
>>> b += a
>>> b
array([[ 3.69092703,  3.8324276 ,  3.0114541 ],
       [ 3.18679111,  3.3039349 ,  3.37600289]])
>>> a += b                                  # b is converted to integer type
>>> a
array([[6, 6, 6],
       [6, 6, 6]])

當運算的是不同型別的陣列時,結果陣列和更普遍和精確的已知(這種行為叫做upcast)。

>>> a = ones(3, dtype=int32)
>>> b = linspace(0,pi,3)
>>> b.dtype.name
'float64'
>>> c = a+b
>>> c
array([ 1.        ,  2.57079633,  4.14159265])
>>> c.dtype.name
'float64'
>>> d = exp(c*1j)
>>> d
array([ 0.54030231+0.84147098j, -0.84147098+0.54030231j,
       -0.54030231-0.84147098j])
>>> d.dtype.name

‘complex128’ 許多非陣列運算,如計算陣列所有元素之和,被作為ndarray類的方法實現。

>>> a = random.random((2,3))
>>> a
array([[ 0.6903007 ,  0.39168346,  0.16524769],
       [ 0.48819875,  0.77188505,  0.94792155]])
>>> a.sum()
3.4552372100521485
>>> a.min()
0.16524768654743593
>>> a.max()
0.9479215542670073

這些運算預設應用到陣列好像它就是一個數字組成的列表,無關陣列的形狀。然而,指定axis引數你可以吧運算應用到陣列指定的軸上:

>>> b = arange(12).reshape(3,4)
>>> b
array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])
>>>
>>> b.sum(axis=0)                            # sum of each column
array([12, 15, 18, 21])
>>>
>>> b.min(axis=1)                            # min of each row
array([0, 4, 8])
>>>
>>> b.cumsum(axis=1)                         # cumulative sum along each row
array([[ 0,  1,  3,  6],
       [ 4,  9, 15, 22],
       [ 8, 17, 27, 38]])

5.通用函式(ufunc)

NumPy提供常見的數學函式如sin,cos和exp。在NumPy中,這些叫作“通用函式”(ufunc)。在NumPy裡這些函式作用按陣列的元素運算,產生一個數組作為輸出。

>>> B = arange(3)
>>> B
array([0, 1, 2])
>>> exp(B)
array([ 1.        ,  2.71828183,  7.3890561 ])
>>> sqrt(B)
array([ 0.        ,  1.        ,  1.41421356])
>>> C = array([2., -1., 4.])
>>> add(B, C)
array([ 2.,  0.,  6.])

更多函式all, alltrue, any, apply along axis, argmax, argmin, argsort, average, bincount, ceil, clip, conj, conjugate, corrcoef, cov, cross, cumprod, cumsum, diff, dot, floor, inner, inv, lexsort, max, maximum, mean, median, min, minimum, nonzero, outer, prod, re, round, sometrue, sort, std, sum, trace, transpose, var, vdot, vectorize, where 等等,請參考:NumPy示例

6.索引,切片和迭代

一維陣列可以被索引、切片和迭代,就像列表和其它Python序列:

>>> a = arange(10)**3
>>> a
array([  0,   1,   8,  27,  64, 125, 216, 343, 512, 729])
>>> a[2]
8
>>> a[2:5]
array([ 8, 27, 64])
>>> a[:6:2] = -1000    # equivalent to a[0:6:2] = -1000; from start to position 6, exclusive, set every 2nd element to -1000
>>> a
array([-1000,     1, -1000,    27, -1000,   125,   216,   343,   512,   729])
>>> a[ : :-1]                                 # reversed a
array([  729,   512,   343,   216,   125, -1000,    27, -1000,     1, -1000])
>>> for i in a:
...         print i**(1/3.),
...
nan 1.0 nan 3.0 nan 5.0 6.0 7.0 8.0 9.0

多維陣列可以每個軸有一個索引。這些索引由一個逗號分割的元組給出。

>>> def f(x,y):
...         return 10*x+y
...
>>> b = fromfunction(f,(5,4),dtype=int)
>>> b
array([[ 0,  1,  2,  3],
       [10, 11, 12, 13],
       [20, 21, 22, 23],
       [30, 31, 32, 33],
       [40, 41, 42, 43]])
>>> b[2,3]
23
>>> b[0:5, 1]                       # each row in the second column of b
array([ 1, 11, 21, 31, 41])
>>> b[ : ,1]                        # equivalent to the previous example
array([ 1, 11, 21, 31, 41])
>>> b[1:3, : ]                      # each column in the second and third row of b
array([[10, 11, 12, 13],
       [20, 21, 22, 23]])

當少於軸數的索引被提供時,確失的索引被認為是整個切片:

>>> b[-1]      # the last row. Equivalent to b[-1,:]
array([40, 41, 42, 43])

b[i]中括號中的表示式被當作i和一系列:,來代表剩下的軸。NumPy也允許你使用“點”像b[i,…]。

點(…)代表許多產生一個完整的索引元組必要的分號。如果x是秩為5的陣列(即它有5個軸),那麼:

x[1,2,…] 等同於 x[1,2,:,:,:],
x[…,3] 等同於 x[:,:,:,:,3]
x[4,…,5,:] 等同 x[4,:,:,5,:].

>>> c = array( [ [[  0,  1,  2],      # a 3D array (two stacked 2D arrays) ...               [ 10, 12, 13]], ... ...              [[100,101,102], ...               [110,112,113]] ] ) >>> c.shape (2, 2, 3) >>> c[1,...]                          # same as c[1,:,:] or c[1] array([[100, 101, 102],        [110, 112, 113]]) >>> c[...,2]                          # same as c[:,:,2] array([[  2,  13],        [102, 113]]) 

迭代多維陣列是就第一個軸而言的:

>>> for row in b:
...         print row
...
[0 1 2 3]
[10 11 12 13]
[20 21 22 23]
[30 31 32 33]
[40 41 42 43]

然而,如果一個人想對每個陣列中元素進行運算,我們可以使用flat屬性,該屬性是陣列元素的一個迭代器:

>>> for element in b.flat:
...         print element,
...
0 1 2 3 10 11 12 13 20 21 22 23 30 31 32 33 40 41 42 43

更多[], …, newaxis, ndenumerate, indices, index exp 請參考:NumPy示例

三、形狀操作

1.更改陣列的形狀

一個數組的形狀由它每個軸上的元素個數給出:

>>> a = floor(10*random.random((3,4)))
>>> a
array([[ 7.,  5.,  9.,  3.],
       [ 7.,  2.,  7.,  8.],
       [ 6.,  8.,  3.,  2.]])
>>> a.shape
(3, 4)

一個數組的形狀可以被多種命令修改:

>>> a.ravel() # flatten the array
array([ 7.,  5.,  9.,  3.,  7.,  2.,  7.,  8.,  6.,  8.,  3.,  2.])
>>> a.shape = (6, 2)
>>> a.transpose()
array([[ 7.,  9.,  7.,  7.,  6.,  3.],
       [ 5.,  3.,  2.,  8.,  8.,  2.]])

ravel()展開的陣列元素的順序通常是“C風格”的,就是說,最右邊的索引變化得最快,所以元素a[0,0]之後是a[0,1]。如果陣列被改變形狀(reshape)成其它形狀,陣列仍然是“C風格”的。NumPy通常建立一個以這個順序儲存資料的陣列,所以ravel()將總是不需要複製它的引數3。但是如果陣列是通過切片其它陣列或有不同尋常的選項時,它可能需要被複制。函式reshape()ravel()還可以被同過一些可選引數構建成FORTRAN風格的陣列,即最左邊的索引變化最快。

reshape函式改變引數形狀並返回它,而resize函式改變陣列自身。

>>> a
array([[ 7.,  5.],
       [ 9.,  3.],
       [ 7.,  2.],
       [ 7.,  8.],
       [ 6.,  8.],
       [ 3.,  2.]])
>>> a.resize((2,6))
>>> a
array([[ 7.,  5.,  9.,  3.,  7.,  2.],
       [ 7.,  8.,  6.,  8.,  3.,  2.]])

如果在改變形狀操作中一個維度被給做-1,其維度將自動被計算

更多 shape, reshape, resize, ravel ,請參考:NumPy示例

2.組合(stack)不同的陣列

Numpy提供幾種方法可以沿不同軸將陣列堆疊在一起:

>>> a = floor(10*random.random((2,2)))
>>> a
array([[ 1.,  1.],
       [ 5.,  8.]])
>>> b = floor(10*random.random((2,2)))
>>> b
array([[ 3.,  3.],
       [ 6.,  0.]])
>>> vstack((a,b))
array([[ 1.,  1.],
       [ 5.,  8.],
       [ 3.,  3.],
       [ 6.,  0.]])
>>> hstack((a,b))
array([[ 1.,  1.,  3.,  3.],
       [ 5.,  8.,  6.,  0.]])

函式column_stack以列將一維數組合成二維陣列,它等同與vstack對一維陣列。

>>> column_stack((a,b))   # With 2D arrays
array([[ 1.,  1.,  3.,  3.],
       [ 5.,  8.,  6.,  0.]])
>>> a=array([4.,2.])
>>> b=array([2.,8.])
>>> a[:,newaxis]  # This allows to have a 2D columns vector
array([[ 4.],
       [ 2.]])
>>> column_stack((a[:,newaxis],b[:,newaxis]))
array([[ 4.,  2.],
       [ 2.,  8.]])
>>> vstack((a[:,newaxis],b[:,newaxis])) # The behavior of vstack is different
array([[ 4.],
       [ 2.],
       [ 2.],
       [ 8.]])

row_stack函式,另一方面,將一維陣列以行組合成二維陣列。

對那些維度比二維更高的陣列,hstack沿著第二個軸組合,vstack沿著第一個軸組合,concatenate允許可選引數給出組合時沿著的軸。

在複雜情況下,r_[]c_[]對建立沿著一個方向組合的數很有用,它們允許範圍符號(“:”):

>>> r_[1:4,0,4]
array([1, 2, 3, 0, 4])

當使用陣列作為引數時,r_c_的預設行為和vstackhstack很像,但是允許可選的引數給出組合所沿著的軸的代號。

更多函式hstack , vstack, column_stack , row_stack , concatenate , c_ , r_ 請參見:NumPy示例

3.將一個數組分割(split)成幾個小陣列

使用hsplit你能將陣列沿著它的水平軸分割,或者指定返回相同形狀陣列的個數,或者指定在哪些列後發生分割:

>>> a = floor(10*random.random((2,12)))
>>> a
array([[ 8.,  8.,  3.,  9.,  0.,  4.,  3.,  0.,  0.,  6.,  4.,  4.],
       [ 0.,  3.,  2.,  9.,  6.,  0.,  4.,  5.,  7.,  5.,  1.,  4.]])
>>> hsplit(a,3)   # Split a into 3
[array([[ 8.,  8.,  3.,  9.],
       [ 0.,  3.,  2.,  9.]]), array([[ 0.,  4.,  3.,  0.],
       [ 6.,  0.,  4.,  5.]]), array([[ 0.,  6.,  4.,  4.],
       [ 7.,  5.,  1.,  4.]])]
>>> hsplit(a,(3,4))   # Split a after the third and the fourth column
[array([[ 8.,  8.,  3.],
       [ 0.,  3.,  2.]]), array([[ 9.],
       [ 9.]]), array([[ 0.,  4.,  3.,  0.,  0.,  6.,  4.,  4.],
       [ 6.,  0.,  4.,  5.,  7.,  5.,  1.,  4.]])]

vsplit沿著縱向的軸分割,array split允許指定沿哪個軸分割。

四、複製和檢視

當運算和處理陣列時,它們的資料有時被拷貝到新的陣列有時不是。這通常是新手的困惑之源。這有三種情況:

1.完全不拷貝

簡單的賦值不拷貝陣列物件或它們的資料。

>>> a = arange(12)
>>> b = a            # no new object is created
>>> b is a           # a and b are two names for the same ndarray object
True
>>> b.shape = 3,4    # changes the shape of a
>>> a.shape
(3, 4)

Python 傳遞不定物件作為參考4,所以函式呼叫不拷貝陣列。

>>> def f(x):
...     print id(x)
...
>>> id(a)                           # id is a unique identifier of an object
148293216
>>> f(a)
148293216

2.檢視(view)和淺複製

不同的陣列物件分享同一個資料。檢視方法創造一個新的陣列物件指向同一資料。

>>> c = a.view()
>>> c is a
False
>>> c.base is a                        # c is a view of the data owned by a
True
>>> c.flags.owndata
False
>>>
>>> c.shape = 2,6                      # a's shape doesn't change
>>> a.shape
(3, 4)
>>> c[0,4] = 1234                      # a's data changes
>>> a
array([[   0,    1,    2,    3],
       [1234,    5,    6,    7],
       [   8,    9,   10,   11]])

切片陣列返回它的一個檢視:

>>> s = a[ : , 1:3]     # spaces added for clarity; could also be written "s = a[:,1:3]"
>>> s[:] = 10           # s[:] is a view of s. Note the difference between s=10 and s[:]=10
>>> a
array([[   0,   10,   10,    3],
       [1234,   10,   10,    7],
       [   8,   10,   10,   11]])

五、深複製

這個複製方法完全複製陣列和它的資料。

>>> d = a.copy()                          # a new array object with new data is created
>>> d is a
False
>>> d.base is a                           # d doesn't share anything with a
False
>>> d[0,0] = 9999
>>> a
array([[   0,   10,   10,    3],
       [1234,   10,   10,    7],
       [   8,   10,   10,   11]])

1.函式和方法(method)總覽

這是個NumPy函式和方法分類排列目錄。這些名字連結到NumPy示例,你可以看到這些函式起作用。

1.建立陣列

arange, array, copy, empty, empty_like, eye, fromfile, fromfunction, identity, linspace, logspace, mgrid, ogrid, ones, ones_like, r , zeros, zeros_like

2.轉化

astype, atleast 1d, atleast 2d, atleast 3d, mat

3.操作

array split, column stack, concatenate, diagonal, dsplit, dstack, hsplit, hstack, item, newaxis, ravel, repeat, reshape, resize, squeeze, swapaxes, take, transpose, vsplit, vstack

4.詢問

all, any, nonzero, where

5.排序

argmax, argmin, argsort, max, min, ptp, searchsorted, sort

6.運算

choose, compress, cumprod, cumsum, inner, fill, imag, prod, put, putmask, real, sum

7.基本統計

cov, mean, std, var

8.基本線性代數

cross, dot, outer, svd, vdot

六、進階

1.廣播法則(rule)

廣播法則能使通用函式有意義地處理不具有相同形狀的輸入。

廣播第一法則是,如果所有的輸入陣列維度不都相同,一個“1”將被重複地新增在維度較小的陣列上直至所有的陣列擁有一樣的維度。

廣播第二法則確定長度為1的陣列沿著特殊的方向表現地好像它有沿著那個方向最大形狀的大小。對陣列來說,沿著那個維度的陣列元素的值理應相同。

應用廣播法則之後,所有陣列的大小必須匹配。更多細節可以從這個文件找到。

七、花哨的索引和索引技巧

NumPy比普通Python序列提供更多的索引功能。除了索引整數和切片,正如我們之前看到的,陣列可以被整數陣列和布林陣列索引。

1.通過陣列索引

>>> a = arange(12)**2                          # the first 12 square numbers
>>> i = array( [ 1,1,3,8,5 ] )                 # an array of indices
>>> a[i]                                       # the elements of a at the positions i
array([ 1,  1,  9, 64, 25])
>>>
>>> j = array( [ [ 3, 4], [ 9, 7 ] ] )         # a bidimensional array of indices
>>> a[j]                                       # the same shape as j
array([[ 9, 16],
       [81, 49]])

當被索引陣列a是多維的時,每一個唯一的索引數列指向a的第一維5。以下示例通過將圖片標籤用調色版轉換成色彩影象展示了這種行為。

>>> palette = array( [ [0,0,0],                # black
...                    [255,0,0],              # red
...                    [0,255,0],              # green
...                    [0,0,255],              # blue
...                    [255,255,255] ] )       # white
>>> image = array( [ [ 0, 1, 2, 0 ],           # each value corresponds to a color in the palette
...                  [ 0, 3, 4, 0 ]  ] )
>>> palette[image]                            # the (2,4,3) color image
array([[[  0,   0,   0],
        [255,   0,   0],
        [  0, 255,   0],
        [  0,   0,   0]],
       [[  0,   0,   0],
        [  0,   0, 255],
        [255, 255, 255],
        [  0,   0,   0]]])

我們也可以給出不不止一維的索引,每一維的索引陣列必須有相同的形狀。

>>> a = arange(12).reshape(3,4)
>>> a
array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])
>>> i = array( [ [0,1],   # indices for the first dim of a
...              [1,2] ] )
>>> j = array( [ [2,1],   # indices for the second dim
...              [3,3] ] )
>>>
>>> a[i,j]      # i and j must have equal shape
array([[ 2,  5],
       [ 7, 11]])
>>>
>>> a[i,2]
array([[ 2,  6],
       [ 6, 10]])
>>>
>>> a[:,j]      # i.e., a[ : , j]
array([[[ 2,  1],
        [ 3,  3]],
       [[ 6,  5],
        [ 7,  7]],
       [[10,  9],
        [11, 11]]])

自然,我們可以把i和j放到序列中(比如說列表)然後通過list索引。

>>> l = [i,j]
>>> a[l]        # equivalent to a[i,j]
array([[ 2,  5],
       [ 7, 11]])

然而,我們不能把i和j放在一個數組中,因為這個陣列將被解釋成索引a的第一維。

>>> s = array( [i,j] )
>>> a[s]           # not what we want
---------------------------------------------------------------------------
IndexError                                Traceback (most recent call last)
<ipython-input-100-b912f631cc75> in <module>()
----> 1 a[s]

IndexError: index (3) out of range (0<=index<2) in dimension 0
>>>
>>> a[tuple(s)]    # same as a[i,j]
array([[ 2,  5],
       [ 7, 11]])

另一個常用的陣列索引用法是搜尋時間序列最大值6。

>>> time = linspace(20, 145, 5)                 # time scale
>>> data = sin(arange(20)).reshape(5,4)         # 4 time-dependent series
>>> time
array([  20.  ,   51.25,   82.5 ,  113.75,  145.  ])
>>> data
array([[ 0.        ,  0.84147098,  0.90929743,  0.14112001],
       [-0.7568025 , -0.95892427, -0.2794155 ,  0.6569866 ],
       [ 0.98935825,  0.41211849, -0.54402111, -0.99999021],
       [-0.53657292,  0.42016704,  0.99060736,  0.65028784],
       [-0.28790332, -0.96139749, -0.75098725,  0.14987721]])
>>>
>>> ind = data.argmax(axis=0)                   # index of the maxima for each series
>>> ind
array([2, 0, 3, 1])
>>>
>>> time_max = time[ ind]                       # times corresponding to the maxima
>>>
>>> data_max = data[ind, xrange(data.shape[1])] # => data[ind[0],0], data[ind[1],1]...
>>>
>>> time_max
array([  82.5 ,   20.  ,  113.75,   51.25])
>>> data_max
array([ 0.98935825,  0.84147098,  0.99060736,  0.6569866 ])
>>>
>>> all(data_max == data.max(axis=0))
True

你也可以使用陣列索引作為目標來賦值:

>>> a = arange(5)
>>> a
array([0, 1, 2, 3, 4])
>>> a[[1,3,4]] = 0
>>> a
array([0, 0, 2, 0, 0])

然而,當一個索引列表包含重複時,賦值被多次完成,保留最後的值:

>>> a = arange(5)
>>> a[[0,0,2]]=[1,2,3]
>>> a
array([2, 1, 3, 3, 4])

這足夠合理,但是小心如果你想用Python的+=結構,可能結果並非你所期望:

>>> a = arange(5)
>>> a[[0,0,2]]+=1
>>> a
array([1, 1, 3, 3, 4])

即使0在索引列表中出現兩次,索引為0的元素僅僅增加一次。這是因為Python要求a+=1和a=a+1等同。

2.通過布林陣列索引

當我們使用整數陣列索引陣列時,我們提供一個索引列表去選擇。通過布林陣列索引的方法是不同的我們顯式地選擇陣列中我們想要和不想要的元素。

我們能想到的使用布林陣列的索引最自然方式就是使用和原陣列一樣形狀的布林陣列。

>>> a = arange(12).reshape(3,4)
>>> b = a > 4
>>> b         # b is a boolean with a's shape
array([[False, False, False, False],
       [False, True, True, True],
       [True, True, True, True]], dtype=bool)
>>> a[b]      # 1d array with the selected elements
array([ 5,  6,  7,  8,  9, 10, 11])

這個屬性在賦值時非常有用:

>>> a[b] = 0   # All elements of 'a' higher than 4 become 0
>>> a
array([[0, 1, 2, 3],
       [4, 0, 0, 0],
       [0, 0, 0, 0]])

你可以參考曼德博集合示例看看如何使用布林索