Pandas基本功能之層次化索引及層次化彙總

阿新 • • 發佈：2018-11-14

層次化索引

層次化也就是在一個軸上擁有多個索引級別

Series的層次化索引

data=Series(np.random.randn(10),index=[
    ['a','a','a','b','b','b','c','c','d','d'],
    [1,2,3,1,2,3,1,2,2,3]
])
data

a  1    0.965999
   2   -0.271733
   3    0.133910
b  1   -0.806885
   2   -0.622905
   3   -0.355330
c  1   -0.659194
   2   -1.082872
d  2   -0.043984
   3   -1.125324
dtype: float64

# 選取資料子集
data['b']
1   -0.806885
2   -0.622905
3   -0.355330
dtype: float64

data['b':'c'] # 在pandas中顧頭也顧尾

b  1   -0.806885
   2   -0.622905
   3   -0.355330
c  1   -0.659194
   2   -1.082872
dtype: float64

data.ix[['b','d']] # 按行索引名稱選擇
b  1   -0.806885
   2   -0.622905
   3   -0.355330
d  2   -0.043984
   3   -1.125324
dtype: float64

# 在內層中進行選取，選擇所有的行索引中的2這一行
data[:,2]
a   -0.271733
b   -0.622905
c   -1.082872
d   -0.043984
dtype: float64

# 層次化索引在資料重塑和基於分組的操作中扮演著重要的角色
# 這個函式會把層次化索引轉為DataFrame格式，最外層的行索引作為DataFrame的行索引，內層的索引作為列索引
data.unstack()

    1             2           3
a   0.965999    -0.271733   0.133910
b   -0.806885   -0.622905   -0.355330
c   -0.659194   -1.082872   NaN
d   NaN         -0.043984   -1.125324

# unstack()的逆運算，轉回來
data.unstack().stack()

a  1    0.965999
   2   -0.271733
   3    0.133910
b  1   -0.806885
   2   -0.622905
   3   -0.355330
c  1   -0.659194
   2   -1.082872
d  2   -0.043984
   3   -1.125324
dtype: float64

DataFrame的層次化索引

frame = pd.DataFrame(np.arange(12).reshape(4,3),index=[['a','a','b','b'],[1,2,1,2]],
            columns=[['ohio','ohio','color'],['green','red','green']]
            )
frame

    ohio    color
   green    red green
a   1   0   1   2
    2   3   4   5
b   1   6   7   8
    2   9   10  11

# 給層級行索引加名字
frame.index.names = ['key1','key2']
# 給層級列索引加名字
frame.columns.names = ['state','color']
frame

   state    ohio    color
   color    green   red green
key1    key2            
a   1   0   1   2
    2   3   4   5
b   1   6   7   8
    2   9   10  11

frame['ohio']

   color    green   red
key1    key2        
a   1   0   1
    2   3   4
b   1   6   7
    2   9   10

重排分級順序

frame

state   ohio    color
color   green   red green
key1    key2            
a   1   0   1   2
    2   3   4   5
b   1   6   7   8
    2   9   10  11

# 這裡sortlevel()括號裡的0指把key2和key1交換後按key2排序
frame.swaplevel(0,1).sortlevel(0)

    state   ohio    color
color   green   red green
key2    key1            
1   a   0   1   2
    b   6   7   8
2   a   3   4   5
    b   9   10  11


# 1指按key1排序
frame.swaplevel(0,1).sortlevel(1)

state   ohio    color
color   green   red green
key2    key1            
1   a   0   1   2
2   a   3   4   5
1   b   6   7   8
2   b   9   10  11

根據層次索引級別彙總統計

frame

state   ohio    color
color   green   red green
key1    key2            
a   1   0   1   2
    2   3   4   5
b   1   6   7   8
    2   9   10  11

# 以key2的1和1相加，2和2索引相加
frame.sum(level='key2')

state   ohio    color
color   green   red green
key2            
1   6   8   10
2   12  14  16

# 以行索引的green索引相加，red沒有不做改變
frame.sum(level='color',axis=1)

color   green   red
key1    key2        
a   1   2   1
    2   8   4
b   1   14  7
    2   20  10

使用DataFrame的列

frame1 = pd.DataFrame({'a':range(7),'b':range(7,0,-1),
                     'c':['one','one','one','two','two','two','two'],
                      'd':[0,1,2,0,1,2,3]
                     })

frame1

   a    b   c   d
0   0   7   one 0
1   1   6   one 1
2   2   5   one 2
3   3   4   two 0
4   4   3   two 1
5   5   2   two 2
6   6   1   two 3

#把c/d設定為行索引，預設會刪除這兩列，如果不想刪除，可以吧drop=False開啟
frame1.set_index(['c','d'])

        a   b
c   d       
one 0   0   7
    1   1   6
    2   2   5
two 0   3   4
    1   4   3
    2   5   2
    3   6   1


# reset_index會把cd設定為列索引,瞭解就行
frame2.reset_index()

   index    a   b   c   d
0   0   0   7   one 0
1   1   1   6   one 1
2   2   2   5   one 2
3   3   3   4   two 0
4   4   4   3   two 1
5   5   5   2   two 2
6   6   6   1   two 3

Pandas基本功能之層次化索引及層次化彙總

層次化索引層次化也就是在一個軸上擁有多個索引級別 Series的層次化索引 data=Series(np.random.randn(10),index=[ ['a','a','a','b','b','b','c','c','d','d'], [1,2,3,1,2,3,1,2,2,3]

Pandas基本功能之reindex重新索引

重新索引 reindex重置索引,如果索引值不存在，就引入缺失值引數介紹引數說明 index 用作索引的新序列 method 插值 fill_vlaue 引入

Pandas基本功能之算術運算、排序和排名

算術運算和資料對齊 Series和DataFrame中行運算和列運算有種特徵叫做廣播在將物件相加時，如果存在不同的索引對，則結果的索引就是該索引對的並集。自動的資料對齊操作在不重疊的索引處引入了NA值，NA值在算術運算中過程中傳播。 import pandas as pd from pandas im

pandas學習筆記5---DataFrame/Series基本功能之計算

OK，繼續學習pandas的基本功能之計算，pandas庫的資料結構幾乎與excel或資料庫的結構完全一樣，非常接近我們日常所用的資料形式。同時也是資料分析/挖掘計算的常用基礎庫，其計算功能的重要性自然不言而喻。本次我們針對pandas的主要資料結構Series/Data

Pandas DataFrame 的基本操作之重新索引

1.reindex:可以對行和列索引，預設對行索引，加上關鍵字columns對列索引。 import pandas as pd data=[[1,1,1,1],[2,2,2,2],[3,3,3,3],[4,4,4,4]] df = pd.DataFrame(data,ind

pandas學習筆記之Dataframe索引

# DataFra是一個表格，有行索引和列索引，可以被看做由Series組成的字典（共用一個索引） import numpy as np import pandas as pd df = pd.DataFrame(np.random.rand(12

pandas基本功能（續1）

丟棄指定軸上的項丟棄某條軸上的一個或多個項很簡單，只要有一個索引陣列或列表即可。由於需要執行一些資料整理和集合邏輯，所以drop方法返回的是一個在指定軸上刪除了指定值的新物件：對於DataFrame，可以刪除任意軸上的索引值：索引、選取和過濾 Series索引（o

Pandas基本功能詳解 | 輕鬆玩轉Pandas（2）

教你學會 Pandas 不是我的目的，教你輕鬆玩轉 Pandas 才是我的目的。我會通過一系列例項來帶入 Pandas 的知識點，讓你在學習 Pandas 的路上不再枯燥。宣告：我所寫的輕鬆玩轉 Pandas 教程都是免費的，如果對你有幫助，你

python進行資料分析-----pandas入門之層次化索引

目錄層次化索引層次化索引層次化索引是pandas的一項重要功能，它使你在一個軸上擁有多個索引級別，可以是你以低維度的形式處理高維度的資料。 levels是索引集合和它的空間結構 labels是索引在levels中索引的集合 > from pan

pandas層次化索引

() 方法 code 對象索引對象最小 lis taf 無法 1. 創建多層行索引 1) 隱式構造最常見的方法是給DataFrame構造函數的index參數傳遞兩個或更多的數組 Series也可以創建多層

03 -3 pandas 層次化索引（隱式構造，顯示構造）、多層列索引、多層索引物件的索引與切片操作（Series的操作，DataFrame的操作）

pandas層次化索引多級索引包括: 多級行索引和多級列索引 1. 建立多層行索引 1) 隱式構造最常見的方法是給DataFrame建構函式的index引數傳遞兩個或更多的陣列 Series也可以建立多層索引 import numpy as np

pandas中層次化索引與切片

Pandas層次化索引 1. 建立多層索引隱式索引：常見的方式是給dataframe建構函式的index引數傳遞兩個或是多個數組 Series也可以建立多層索引 Series多層索引 B =Series(np.random.randint(0,150,

利用Pandas進行資料分析（3）——統計、處理缺失值、層次化索引

注：此係列參考了樑斌老師的課件和《利用Python進行資料分析》一書。 import numpy as np import pandas as pd from pandas import DataFrame,Series df_obj

pandas之基本功能

pandas 的官方文件：1. 重新索引作用：建立一個適應新索引的新物件，會根據新索引對原資料進行重排，如果是新引入的索引，則會引入缺失值(也可用 fill_value 指定填充值)。reindex 的函式引數：indexNew sequence to use as

（轉） SolrCloud之分布式索引及與Zookeeper的集成

閾值 leader選舉較高的配置配置信息 tail ots 便是 recovery http://blog.csdn.net/ebay/article/details/46549481 作者：Wang, Josh 一、概述 Lucene是一個Java語言

利用python數據分析panda學習筆記之基本功能

數據分析 method 入行整數 -s cnblogs 3.4 style fill 1 重新生成索引如果某個索引值不存在就引入缺失值 1 from pandas import Series,DataFrame 2 import pandas as pd 3 im

hadoop單機版安裝及基本功能演示

lis fs基本操作 map jdk1 linu logs tput open etc 本文所使用的Linux發行版本為：CentOS Linux release 7.4.1708 (Core) hadoop單機版安裝準備工作創建用戶 useradd -m hado

pandas庫介紹之DataFrame基本操作

讀取excel 操作 pyplot 分組寫入 pos ner 結構此外怎樣刪除list中空字符？最簡單的方法：new_list = [ x for x in li if x != ‘‘ ] 今天是5.1號。這一部分主要學習pandas中基於前面兩種數據結構的基

lvm邏輯卷的基本應用，擴展及縮減、快照功能實現方法

mapper tcl 磁盤擴容 align fsck 縮減 mark 替換 1.5 lvm：邏輯卷管理作用：將多個物理磁盤組合成一個邏輯磁盤，使其擁有更大的磁盤空間邏輯磁盤結構如下：一、下面一Centos6 為例來創建 lvm，首先在虛擬機上添加3塊硬盤，大小自定。1、f

軟工作業 4：結對項目之詞頻統計——基本功能

ati 與他如果 lam req ESS fin 有效 stop 一、基本信息　　1、本次作業的地址：https://edu.cnblogs.com/campus/ntu/Embedded_Application/homework/2088 　 2、項目Git地

Pandas基本功能之層次化索引及層次化彙總

層次化索引

Series的層次化索引

DataFrame的層次化索引

重排分級順序

根據層次索引級別彙總統計

使用DataFrame的列

相關推薦