《誰說菜鳥不會數據分析》數據處理 之 數據清洗--重復數據的處理
阿新 • • 發佈:2017-11-05
直觀 一起 ora spa 結果 灰色 text 清洗 還需
重復數據的處理
- 識別重復數據
- 刪除重復數據
一、識別重復數據
- 函數法
- 高級篩選法
- 條件格式法
- 數據透視法
-
函數法
函數:=countif(範圍,條件)
可以看出在列字段為A的範圍內,“男”重復4次,“女”重復4次。
那麽,看到的重復項是第幾個重復項呢?在countif函數中調節範圍即可:=COUNTIF(A$2:A2,A2)----------A$2固定從A列的第二行開始,A2會變動,下拉時會變成A3,A4,A5...; || A$2:Ai: 範圍從A的第2行到第i行。
可以C2:男出現一次,C3:當下,男出現2次,C4:自此,男出現3次。C5:女第一次出現,C6:自此,女出現兩次了。 -
高級篩選法
開始--排序與篩選--篩選(高級)
結果是:
註:為什麽會出現兩個“男”呢?看我再做一個就明白啦。
現在明白了嗎,因為第一次做高級篩選時,沒有表頭,此時進行,會將第一個單元格的內容作為表頭一起復制過去。 -
條件格式法
選擇區域--開始--條件格式--重復值
選擇自己需要的標識方式。我選第一種,可以看到,有重復的標紅了。 -
數據透視法
插入--數據透視表--創建數據透視表:選擇用的區域和透視表放置區域---設置透視表:把表頭拖到行和列的字段
我選擇在當前的工作表匯總匯總透視表
透視表框架出現:
在框架的最右邊,可以設置透視表的行、列字段。
將行字段設置為表頭對應的內容,不難看出,每行的字段將為:男、女和未知
將列字段設置為表頭的內容,列字段對應的是計數項,所以內容應為男、女和未知對應的個數。
數據透視表創建成功:
可以看出:“男”的重復個數為4,“女”的重復個數為14,“未知”的為1,總個數為19.
總結:
- 函數法:根據範圍選擇不同,可以看到重復的個數,也可以得到這是第幾個重復值。
- 高級篩選法:將多余的去除,只留下唯一一個。
- 條件格式法:將有重復項的標記,可以直觀看出哪些有重復項。缺點是只能看到該內容是重復的,不能區分不同的內容的重復項。但可以靈活運用,如果重復項過多,將條件設為找唯一項,可以很快找唯一項也不錯。
- 數據透視法:將計算重復項這個工作直接做成表格,可以直觀看到每個字段的重復個數。
二、刪除重復數據
- 通過菜單刪除重復項
- 通過排序刪除重復項
- 通過篩選刪除重復項
-
通過菜單刪除重復項
數據--數據工具--刪除重復項
包括表頭,共有20行,表頭還是作為表頭,內容為19個,結果是刪除了16個重復值,留下了唯一值:男、女、和未知。(高級篩選法也可以有這個效果) -
通過排序刪除重復項(此處和書本可能有點不同,我覺得我這樣做可能更方便些,所以記錄我自己采用的那種)
排序--刪除
對第一列,也就是我們想刪除重復項的內容排序,將相同內容放在一起,通過countif,標記每個內容是第幾個重復值,這幾個重復值就是我們所需的
第一列排序的效果是,女全在前面,男全在後面,countif的結果排序,效果是女列或者男這列,它們按屬於第幾個重復值排好序
刪除大於1的。
同理刪除“女”的大於1的。 -
通過篩選刪除重復項(此處多加了點自己的想法)
countif排序---排序--篩選--刪除重復項,具體如下
通過countif,標記每個內容是第幾個重復值,這幾個重復值就是我們所需的
數據--排序和篩選:排序
點擊排序,出現下拉格
因為靠第三列做篩選,所以點擊第三列下拉框,會出現下面選項,把除了1以外的全部去掉。這裏有幾種方式都可以達到這個效果,我也在下面列出
第二種方式:
第一種結果如下:可以看出每個重復值有幾個,然後復制粘貼到別處即可
第二種方式結果:
留下的就是唯一的了,把灰色篩選那個點一下,就變成不是灰色了,結果就出來了。
總結
- 通過菜單刪除重復項:快捷。
- 通過排序刪除重復項:較為復雜,排序好還需人工看是否大於1,然後刪除。
- 通過篩選刪除重復項:較為復雜,但比第二種好一點,可以自動先篩選大於1的,再刪除。
《誰說菜鳥不會數據分析》數據處理 之 數據清洗--重復數據的處理