1. 程式人生 > >手把手教你學numpy,從此資料處理不再慌【三】

手把手教你學numpy,從此資料處理不再慌【三】

本文始發於個人公眾號:**TechFlow**,原創不易,求個關注

今天是numpy專題的第三篇,我們來聊聊numpy當中的索引。

上篇的末尾其實我們簡單地提到了索引,但是沒有過多深入。沒有過多深入的原因也很簡單,因為numpy當中關於索引的用法實在是很多,並不是我們想的那樣用一個下標去獲取資料就完事了。

所以我整理了一下相關的用法,把關於索引的使用簡單分成了幾類,我們一個一個來看。

切片索引

切片我們都熟悉,用冒號將兩個數隔開,表示一個區間的上界和下界。通過這種方式訪問這個區間內的所有元素。

這一點我們之前介紹過,我們簡單回顧一下。

這是一維陣列的切片,既然一維陣列可以切片,那麼同樣高維陣列也可以切片。我們來看一個二維的陣列的切片:

我們生成了一個3 x 4的二維陣列,然後通過切片獲取了它的1-2資料。由於我們是對行切片,預設保留這一行的所有資料。

如果我們並不需要所有資料,而是隻需要某一列的固定資料,可以寫成這樣:

這一行程式碼的意思是對於行我們獲取1-3行固定第二列的資料,我們用表格表示的話大概是下面這個樣子:

我們也可以對兩個維度同時切片,這樣可以得到更加複雜的資料:

這樣切片獲得的資料大概是這樣的:

也就是說在numpy的陣列當中各個維度是分開的,每一個維度都支援切片。我們可以根據我們的需要切片或者是固定下標來獲取我們想要的切片。

bool型索引

numpy當中還有一個非常好用的索引方式叫做bool型索引。前文介紹廣播的時候曾經介紹過,當我們將兩個大小不一致的陣列進行計算的時候,numpy會自動幫我們將它們廣播成大小一致的情況再進行運算。

而邏輯判斷其實也是一種運算,所以如果我們將邏輯運算應用在numpy陣列上的話同樣會得到一個numpy陣列,只不過是bool型別的numpy陣列。

我們來看一個例子:

我們建立了一個numpy的陣列,然後將它和整數4進行比較,numpy會將這個運算廣播到其中每一個元素當中,然後返回得到一個bool型別的numpy陣列。

這個bool型別的陣列可以作為索引,傳入另外一個數組當中,只有bool值為true的行才會被保留。

我們發現只有第4行和第6行的資料被保留了,也就是bool值為true的行號被保留了。這是非常有用的資料獲取方式,我們可以直接將判斷條件放入索引當中進行資料的過濾,如果應用熟練了會非常方便。

再舉個例子,假如我們要根據二維資料的第一列的資料進行過濾,僅僅保留第一列資料大於0.5的。如果按照傳統的方法我們需要用一個迴圈去過濾,但是使用bool型別索引,我們可以只需要一行搞定:

arr[arr[:, 0] > 0.5]

如果有多個條件,我們可以用位運算的與或非進行連線。在Python當中位運算的與或非分別用符號&, |, ~表示。

舉個例子,比如我們想要篩選出arr陣列當中第1列大於0.5,並且第二列小於0.5的資料,我們可以寫成這樣:

arr[(arr[:, 0] > 0.5) & (arr[:, 1] < 0.5)]

如果我們想求這個條件的相反條件,我們當然可以將判斷條件反過來寫,但是也可以通過~符號直接取反:

arr[~((arr[:, 0] > 0.5) & (arr[:, 1] < 0.5))]

花式索引

除了bool索引之外,numpy當中還支援一種花式索引。

所謂的花式索引,意思是說支援將另外一個數組當做是索引來訪問資料。

舉個很簡單的例子:

從上面的例子我們可以看出來,我們把idx這個陣列當中的值當做了索引進行了資料的訪問。並且有重複值也沒有關係,numpy不會進行去重。

通過陣列訪問資料有什麼用呢?其實非常有用,在我們做機器學習的過程當中,我們經常涉及到一個取樣的問題。我們每次訓練並不是全量的資料,否則非常慢,有時候甚至是不可能完成的,因為資料量太大了。我們往往是抽取出一批資料作為一個batch來訓練的,這個在之前批量梯度下降的文章當中曾經提到過。

那麼一個batch的資料是怎麼抽取的呢?就是這樣抽取的,我們會呼叫np中的一個函式叫做choice,我們用它來從所有樣本的下標當中抽取我們指定數量的下標。

有了下標陣列之後,我們用一下花式索引就可以拿到對應的全部資料了,如果你看過大牛寫的深度學習的程式碼,裡面幾乎都是這樣實現的。

總結

今天關於numpy當中索引的使用和介紹就到這裡,僅僅看介紹可能感受並不明顯。但如果上手用numpy做過一次資料處理和實現過機器學習的模型,相信一定可以感受到它的易用性和強大的功能。索引這個功能非常常用,也非常重要,在後序的pandas庫當中同樣沿用了numpy中對於索引的設定和功能。因此這既是重要的基本功,也是為後面的學習打基礎。

如果喜歡本文,可以的話,請點個關注,給我一點鼓勵,也方便獲取更多文章。

![](https://user-gold-cdn.xitu.io/2020/6/1/1726daa35fa418f9?w=258&h=258&f=png&