1. 程式人生 > >python中對於重複出現的記錄,標記其第一次出現,中間出現,最後一次出現

python中對於重複出現的記錄,標記其第一次出現,中間出現,最後一次出現

import numpy as np
import pandas as pd 
#標記DataFrame重複例子
df = pd.DataFrame({'col1': ['one', 'one', 'two', 'two', 'two', 'three', 'four'], 'col2': [1, 2, 1, 2, 1, 1, 1],
                   'col3':['AA','BB','CC','DD','EE','FF','GG']},index=['a', 'a', 'b', 'c', 'b', 'a','c'])
#duplicated(self, subset=None, keep='first')
#根據列名標記
#keep='first'
df.duplicated()#預設所有列,無重複記錄
df.duplicated('col1')#第二、四、五行被標記為重複
df.duplicated(['col1','col2'])#第五行被標記為重複