1. 程式人生 > >Python資料處理庫pandas基本使用

Python資料處理庫pandas基本使用

---恢復內容開始---

  pandas提供過便於操作資料的資料型別,也提供了許多分析函式和分析工具,使得資料分析易於操作。

 

一、pandas庫中Series型別

  Series可以生成資料的索引(自動索引和自定義索引),見下例:

    

Series可從標量(必須有index)、字典(直接應用Series函式)、ndarray、列表構建。

  基本操作:類似於ndarray和字典型別。可以用自定義索引b['b']=7, 也可以用自動生成的自動索引b[1]=7,但注意不可混合使用。如

b[['c', 'd', 0]]輸出的第三個元素為NaN , 其切片和運算操作與ndarray基本相同,見下例:

    

 in 在列表或ndarray型別中表示某值是否在列表或ndarray中,而對於Series型別是判斷是否在物件的索引列表中。

 b.get('f', 100) 返回索引值'f'對應的值,若沒有則返回100 。

 兩個Series型別a+b相加,得到Series型別c,則c的索引值為a和b索引值的並,c的值分為兩種情況,若索引值在a和b中都存在,則對應值相加;否則(只存在於a和b中的一個),對應值為空。

 可以給Series物件起名字,如b.name='匹配'。

 

二、Pandas庫的DataFrame型別

  由索引和多列資料構成,可以理解為一個表格。其每列值的型別可以不同,且既有行索引也有列索引,常用於表達二維資料。

可由二維ndarray物件、一維列表等、Series型別、其他DataFrame型別建立。見下例:

    

 對於字典dl={'one':[1,2,3], 'two':[9,8,7]} 也可直接用pd.DataFrame(dt,index=['a', 'b', 'c', 'd'])來建立。

 若要獲得某個位置的資料,需要用到行列的聯合索引,如d['a']['one']=1.0

 d['one']可獲得one對應的一列物件,包括行索引值。

 d.ix['a']可獲得a對應的一行物件,包括列索引值。

 

---恢復內容結束---