pandas dataframe去除重複資料pandas.DataFrame.drop_duplicates
阿新 • • 發佈:2018-11-02
例子:
df2 = pd.DataFrame({'工參中沒有的cgi': self.mismatchedcgis})
# subset='工參中沒有的cgi' 表示只考慮列名為:工參中沒有的cgi 這一列的重複項,不設則需考慮全部列,也可以設成多列
# inplace=True是直接在df2表中刪除重複項,如果設成inplace=False則不修改原表df2,而是返回去重後的新表
df2.drop_duplicates(subset='工參中沒有的cgi', inplace=True)
官方文件:
DataFrame.
drop_duplicates
(subset=None, keep='first', inplace=False)[source]
Return DataFrame with duplicate rows removed, optionally only considering certain columns
Parameters: | subset : column label or sequence of labels, optional
keep : {‘first’, ‘last’, False}, default ‘first’
inplace : boolean, default False
|
---|---|
Returns: | deduplicated : DataFrame |