1. 程式人生 > >python查詢/刪除重複記錄

python查詢/刪除重複記錄

1:查詢重複項

df.duplicated()返回的是一個布林型Series(返回值是True或者False),表示各行是否是重複行,可以在()內新增列名來查詢某一列是否有重複值,第一個出現的值為False,後邊再出現相同的行為True
完全重複的專案 df.duplicated()  /  某一列重複df.duplicated('列名')

aa = [[1,2,3],[4,5,6],[1,2,3],[1,2,1]]  
index = [0,1,2,3]  
columns=['a','b','c']  
df = pd.DataFrame(data=aa, index=index, columns=columns)  

 

  a b c
0 1 2 3
1 4 5 6
2 1 2 3
3 1 2 1

 

 

 

df.duplicated()

 

0    False
1    False
2     True
3    False
dtype: bool

 

 

df.duplicated('a') 

 

0    False
1    False
2     True
3     True
dtype: bool


檢視重複的數量,返回結果為True都是前面出現過的
volume_summery[volume_summery.duplicated('order_item_id')==True].shape

 

 

 

 

2:刪除重複項

df.drop_duplicates()刪除完全重複的項,返回不重複的專案

 

  a b c
0 1 2 3
1 4 5 6
3 1 2 1

 


df.drop_duplicates(['列名']) 以該列為標準,刪除重複的專案,返回不重複的專案

 

 

  a b c
0 1 2 3
1 4 5 6