Pandas資料基礎（索引、排序、連線、去重、分箱、異常處理）

阿新 • • 發佈：2019-02-06

使用pandas，首先匯入包：

from pandas import Series, DataFrame
import pandas as pd

一、建立Series，DataFrame

1，建立Series

a，通過列表建立

obj = Series([4, 7, -5, 3]) 
obj2 = Series([4, 7, -5, 3], index=['d','b','a','c']) #指定索引

b，通過字典建立Series

sdata = {'Ohio':35000, 'Texas':7100, 'Oregon':1600,'Utah' 
:500}
obj3 = Series(sdata)

c，通過字典 + 索引

states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = Series(sdata, index=states)

指定索引時，跟states索引匹配的那3個值會被找出並放到相應的位置，‘California’對應的sdata值找不到，其結果為NaN。

2，建立DataFrame

a，詞典生成

data = {'state':['Ohio', 'Ohio', 'Ohio', 'Nevada','Nevada' 
],
        'year':[2000, 2001, 2002, 2011, 2002],
        'pop':[1.5, 1.7, 3.6, 2.4, 2.9]}
frame = DataFrame(data)

frame2 = DataFrame(data, columns=['year', 'state', 'pop']) #指定列
frame3 = DataFrame(data, columns=['year', 'state', 'pop']，
         index=['one', 'two', 'three', 'four', 'five']) #指定列和索引

b，列表生成

>>> errors = [('c',1,'right'), ('b', 2,'wrong')]
>>> df = pd.DataFrame(errors)
>>> df
   0  1      2
0  c  1  right
1  b  2  wrong

>>> df = pd.DataFrame(errors, columns=['name', 'count', 'result'])  #指定列名
>>> df
  name  count result
0    c      1  right
1    b      2  wrong

c, 巢狀詞典（也就是詞典的詞典）

pop = {'Nevada':{2001:2.4, 2002:2.9},
       'Ohio':{2000:1.5, 2001:1.7, 2002:3.6}}
frame4 = DataFrame(pop)
Out[138]:
      Nevada  Ohio
2000     NaN   1.5
2001     2.4   1.7
2002     2.9   3.6

d，Series組合

按行生成DataFrame

In [4]: a = pd.Series([1,2,3]) 
In [5]: b = pd.Series([2,3,4])
In [6]: c = pd.DataFrame([a,b]) 
In [7]: c
Out[7]:
   0  1  2
0  1  2  3
1  2  3  4

按列生成DataFrame

In [8]: c = pd.DataFrame({'a':a,'b':b})
In [9]: c
Out[9]:
   a  b
0  1  2
1  2  3
2  3  4

二，選取

對於一組資料DataFrame：

data = DataFrame(np.arange(16).reshape((4,4)),index=['Ohio', 'Colorado','Utah','New York'],columns=['one','two','three','four'])
>>> data
          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
Utah        8    9     10    11
New York   12   13     14    15

1，選取列，返回一個Series

>>> data['two']
Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int64

2，選取行，返回一個Series

>>> data.ix['Ohio']
one      0
two      1
three    2
four     3
Name: Ohio, dtype: int64

3，選取行和列, 可以是行名，列名，或列的序號

>>> data.ix['Ohio', ['two','three']]
two      1
three    2
Name: Ohio, dtype: int64

>>> data.ix[data.three > 3, :3]
          one  two  three
Colorado    4    5      6
Utah        8    9     10
New York   12   13     14

三、遍歷與彙總

1，按行遍歷

for ix, row in df.iterrows():

2，按列遍歷

for ix, col in df.iteritems():

3，彙總

In[95]: frame = DataFrame({'b':[4, 7, -3, 2], 'a':[0, 1, 0, 1]})
In[99]: frame.sum()
Out[99]: 
a     2
b    10
dtype: int64

四、排序

1，對索引排序

對軸索引排序

Series用sort_index()按索引排序，sort()按值排序；

DataFrame用sort_index()和sort()是一樣的。

In[73]: obj = Series(range(4), index=['d','a','b','c'])
In[74]: obj.sort_index()  
Out[74]: 
a    1
b    2
c    3
d    0
dtype: int64

In[78]: frame = DataFrame(np.arange(8).reshape((2,4)),index=['three', 'one'],columns=['d','a','b','c'])
In[79]: frame
Out[79]: 
       d  a  b  c
three  0  1  2  3
one    4  5  6  7

In[86]: frame.sort_index()
Out[86]: 
       d  a  b  c
one    4  5  6  7
three  0  1  2  3

In[87]: frame.sort()
Out[87]: 
       d  a  b  c
one    4  5  6  7
three  0  1  2  3

2，按行排序

In[89]: frame.sort_index(axis=1, ascending=False)
Out[89]: 
       d  c  b  a
three  0  3  2  1
one    4  7  6  5

3，按列排序（只針對Series）

In[90]: obj.sort()
In[91]: obj
Out[91]: 
d    0
a    1
b    2
c    3
dtype: int64

4，按值排序

Series:

In[92]: obj = Series([4, 7, -3, 2])
In[94]: obj.order()
Out[94]: 
2   -3
3    2
0    4
1    7
dtype: int64

DataFrame:

In[95]: frame = DataFrame({'b':[4, 7, -3, 2], 'a':[0, 1, 0, 1]})
In[97]: frame.sort_index(by='b')
Out[97]: 
   a  b
2  0 -3
3  1  2
0  0  4
1  1  7

五、刪除

1，刪除指定軸上的項

即刪除 Series 的元素或 DataFrame 的某一行（列）的意思，通過物件的 .drop(labels, axis=0) 方法：

刪除Series的一個元素:

In[11]: ser = Series([4.5,7.2,-5.3,3.6], index=['d','b','a','c'])
In[13]: ser.drop('c')
Out[13]: 
d    4.5
b    7.2
a   -5.3
dtype: float64

刪除DataFrame的行或列：

In[17]: df = DataFrame(np.arange(9).reshape(3,3), index=['a','c','d'], columns=['oh','te','ca'])
In[18]: df
Out[18]: 
   oh  te  ca
a   0   1   2
c   3   4   5
d   6   7   8

In[19]: df.drop('a')
Out[19]: 
   oh  te  ca
c   3   4   5
d   6   7   8

In[20]: df.drop(['oh','te'],axis=1)
Out[20]: 
   ca
a   2
c   5
d   8

.drop() 返回的是一個新物件，元物件不會被改變。

六、DataFrame連線

1，算術運算（+，-，*，/）

是df中對應位置的元素的算術運算

In[5]: df1 = DataFrame(np.arange(12.).reshape((3,4)),columns=list('abcd'))

In[6]: df2 = DataFrame(np.arange(20.).reshape((4,5)),columns=list('abcde'))In[9]: df1+df2
Out[9]: 
    a   b   c   d   e
00246NaN19111315NaN218202224NaN3NaNNaNNaNNaNNaN

傳入填充值

In[11]: df1.add(df2, fill_value=0)
Out[11]: 
    a   b   c   d   e
0   0   2   4   6   4
1   9  11  13  15   9
2  18  20  22  24  14
3  15  16  17  18  19

2，pandas.merge

pandas.merge可根據一個或多個鍵將不同DataFrame中的行連線起來。

預設情況下，merge做的是“inner”連線，結果中的鍵是交集，其它方式還有“left”，“right”，“outer”。“outer”外連線求取的是鍵的並集，組合了左連線和右連線。

內連線

In[14]: df1 = DataFrame({'key':['b','b','a','c','a','a','b'],'data1':range(7)})

In[15]: df2 = DataFrame({'key':['a','b','d'],'data2':range(3)})

In[18]: pd.merge(df1, df2)  #或顯式: pd.merge(df1, df2, on='key')
Out[18]: 
   data1 key  data2
0      0   b      1
1      1   b      1
2      6   b      1
3      2   a      0
4      4   a      0
5      5   a      0

外連線

In[19]: pd.merge(df1, df2, how='outer')
Out[19]: 
   data1 key  data2
0      0   b      1
1      1   b      1
2      6   b      1
3      2   a      0
4      4   a      0
5      5   a      0
6      3   c    NaN
7    NaN   d      2

軸向連線

這種資料合併運算被稱為連線（concatenation）、繫結（binding）或堆疊（stacking）。

對於Series

In[23]: s1 = Series([0, 1], index=['a','b'])
In[24]: s2 = Series([2, 3, 4], index=['c','d','e'])
In[25]: s3 = Series([5, 6], index=['f','g'])

In[26]: pd.concat([s1,s2,s3])
Out[26]: 
a    0
b    1
c    2
d    3
e    4
f    5
g    6<

 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    Pandas資料基礎（索引、排序、連線、去重、分箱、異常處理）
      

使用pandas，首先匯入包：

from pandas import Series, DataFrame
import pandas as pd
123123



一、建立Series，DataFrame



1，建立Series



a，通過列表建立



obj = Series([4, 7, 

  
 

    

    
    資料庫——MySQL（二）（增刪查改、去重，分頁、模糊查詢、排序）
      
                新增所有列的記錄：●  語法：insert  into  表名稱  values (值1,值2,值3,...值n);●  例子：insert  into  user  values（‘張三’,‘演員’,22,‘男’）;注意：必須把所有列都進行新增，並且新增值的順序需要與建表時 

  
 

    

    
    Pandas入門基礎（二）：DataFrame的行、列與資料型別
      
							
							
							建立DataFrame資料：
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 20 

  
 

    

    
    【PHP基礎】PHP教程（錯誤處理、異常處理）
      檢測   pen   沒有   border   adding   The   16px   之前   family   1、錯誤處理
在 PHP 中，默認的錯誤處理很簡單。一條消息會被發送到瀏覽器，這條消息帶有文件名、行號以及一條描述錯誤的消息。

在創建腳本和 web 應用程序時，錯誤處理是一個重要 

  
 

    

    
    pandas 資料合併，索引排序
      
                
pandas 資料合併寫入exc的時候會出現列按照字母順序排列，下面是2種解決方法
1、讓本列重新排序
df3 = pd.DataFrame(df3,columns = ['date','open','high','close','low','volume','price_ 

  
 

    

    
    大資料基礎（1）zookeeper原始碼解析
      五 原始碼解析 
  
public enum ServerState {    LOOKING, FOLLOWING, LEADING, OBSERVING;}zookeeper伺服器狀態：剛啟動LOOKING，follower是FOLLOWING，leader是LEADING，observer是 

  
 

    

    
    Python基礎（4）：python中的特性入門篇（索引，切片，連線，重複，成員操作符）
       
 
 在介紹列表的時候發現，有一些特性沒有提前解釋，而穿插在其中又會略顯重複和雜亂，索性在這裡來個總結。
 接觸python的人不難了解到一個詞：高階特性。
 其實內容並不高深，因為高階特性的產生，就是為了讓程式碼更簡介。
 以下先介紹簡單的：索引，切片，連線，重複，成員操作符，以及其應用物件。
 &nb 

  
 

    

    
    Cris 的 Python 資料分析筆記 05：Pandas 資料讀取，索引，切片，計算，列整合，過濾，最值
       
 
  
  
 Pandas 資料讀取，索引，切片，計算，列整合，過濾，最值 
 
 
  文章目錄
  
   
    
     Pandas 資料讀取，索引，切片，計算，列整合，過濾，最值
     
      1. read_csv 函式
      2. DataFrame 資料結構的常用 

  
 

    

    
    Python:Pandas:DataFrame基礎（3）
      
							
							
							接著上一篇文章，我們介紹使用iloc方法讀取資料框的操作

1、提取第四行資料



print(data.iloc[3])

輸出結果如下：




2、返回4-5行，1-2列資料



print(data.iloc[3:5, 0:2])  #注意：區間仍然 

  
 

    

    
    初學乍練redis：兩行shell指令碼實現slowlog持久化轉儲（去重保留歷史條目、時間戳格式化）
      
                目錄

















一、問題提出

        在排查redis效能問題時，從slowlog中找執行緩慢的命令進行優化是一種常規手段。redis slowlog被設計成記憶體中一個先進先出的佇列結構，一旦容量被填滿，新的條目就會擠出舊條目。特別是在慢日 

  
 

    

    
    大資料基礎（五）從零開始安裝配置Hadoop 2.7.2+Spark 2.0.0到Ubuntu 16.04
      
                
raw to spark
0 install ubuntu 14.04.01 desktop x64
1 system基礎配置
《以下都是root模式》
1.3 root password
sudo passwd root
1.5 root登入選項
a.在terminal下 

  
 

    

    
    Python:Pandas:DataFrame基礎（2）
      
							
							
							我們接著上一篇的文章繼續介紹 
1、讀取某一列的資料，假如我們要選擇“維修毛利”這一列的資料進行操作



print(data[u'維修毛利'])

輸出結果如下：




2、使用陣列的切片操作，但是注意了，切片得到的是行資料



print(data[1 

  
 

    

    
    python/pandas資料分析（十五）-聚合與分組運算例項
      
								
								            
							
							
							用特定於分組的值填充缺失值

用平均值去填充nan

s=pd.Series(np.random.randn(6))
s[::2]=np.nan
s

0         NaN
1   -0.1181 

  
 

    

    
    SODBASE實時大資料基礎（一）：實時同步Mysql資料庫到Kafka
      
                
在實際大資料工作中，常常有實時監測資料庫變化或實時同步資料到大資料儲存，解決大資料實時分析的需求。同時，增量同步資料庫資料相比全量查詢也減少了網路頻寬消耗。本文以Mysql的bin-log到Kafka為例，使用Canal Server，通過SODBASE引擎不用寫程式就可以 

  
 

    

    
    用實戰玩轉pandas資料分析（一）——使用者消費行為分析（python）
        CD商品訂單資料的分析總結。根據訂單資料（使用者的消費記錄），從時間維度和使用者維度，分析該網站使用者的消費行為。通過此案例，總結訂單資料的一些共性，能通過使用者的消費記錄挖掘出對業務有用的資訊。對其他產品的線上消費資料分析有一定的借鑑價值，能達到舉一反三的效果。
訂單交易資料分析
[ 

  
 

    

    
    jQuery基礎（動畫篇 animate，顯示隱藏，淡入淡出，下拉切換）
      app   必須   條件   工作   函數   我們   淡入淡出   延時   button   1.jQuery中隱藏元素的hide方法
 

讓頁面上的元素不可見，一般可以通過設置css的display為none屬性。但是通過css直接修改是靜態的布局，如果在代碼執行的時候，一般是通過js控制元素的 

  
 

    

    
    【python基礎】python基礎5+6（set，函式，裝飾器，偏函式，異常處理）
      
                一. python基礎5（set,函式）

1.1set型別

'''set
類似dict，，是一組key的集合，不儲存value
本質： 無序和無重複元素的集合,可以用來去重複
'''

#建立
#建立set需要一個list或tuple作為輸入
#set重複元組在set中會 

  
 

    

    
    JS單行、多行文字字元去重和行去重
      之前偶然看到一篇使用正則實現字元去重及多行去重的文章。感覺寫的有點糙，而且效能也不夠高，對新手的使用和理解都有一點難度。於是忍不住就搞了一個比較可愛的出來。而且不是一般的可愛，因為隨著字元量的增長，其效能甩出前者不知道多少條街。
知識點
這裡的實現對知識點的要求非常的低，不論你是老司機還是菜鳥，基本上一眼就能 

  
 

    

    
    【評分卡】評分卡入門與建立原則——分箱、WOE、IV、分值分配
      
							
							
							
本文主要講“變數選擇”“模型開發”“評分卡建立和刻度”
變數分析
首先，需要確定變數之間是否存在共線性，若存在高度相關性，只需儲存最穩定、預測能力最高的那個。需要通過 VIF(variance inflation factor）也就是 方差膨脹因子進行檢驗。
 

  
 

    

    
    評分卡的建立方法——分箱、WOE、IV、分值分配
      
                

本文主要講“變數選擇”“模型開發”“評分卡建立和刻度”

變數分析

首先，需要確定變數之間是否存在共線性，若存在高度相關性，只需儲存最穩定、預測能力最高的那個。需要通過 VIF(variance inflation factor）也就是 方差膨脹因子進行檢驗。
變數分為