1. 程式人生 > >Pandas:移除重複資料

Pandas:移除重複資料

import pandas as pd
import numpy as np
from pandas import Series,DataFrame

一、unique:只能應該與Series

s = Series(['a','b','a','c','b'])
s.unique()
array(['a', 'b', 'c'], dtype=object)

二、drop_duplicates

1.Series

s.drop_duplicates()
0    a
1    b
3    c
dtype: object

2.DataFrame

df = DataFrame({'水果'
:['蘋果','草莓','蘋果'], '價格':[3,9,3], '數量':[5,6,5]})
print(df.drop_duplicates())
   價格  數量  水果
0   3   5  蘋果
1   9   6  草莓

按指定列去重複

print(df.drop_duplicates('水果'))
   價格  數量  水果
0   3   5  蘋果
1   9   6  草莓

三、duplicated:判斷行是否重複

df.duplicated()
0    False
1    False
2     True
dtype: bool