1. 程式人生 > >《誰說菜鳥不會數據分析》數據處理 之 數據清洗--重復數據的處理

《誰說菜鳥不會數據分析》數據處理 之 數據清洗--重復數據的處理

直觀 一起 ora spa 結果 灰色 text 清洗 還需

重復數據的處理

  • 識別重復數據
  • 刪除重復數據

一、識別重復數據

  • 函數法
  • 高級篩選法
  • 條件格式法
  • 數據透視法
  1. 函數法

    函數:=countif(範圍,條件)

    技術分享技術分享

    可以看出在列字段為A的範圍內,“男”重復4次,“女”重復4次。
    那麽,看到的重復項是第幾個重復項呢?在countif函數中調節範圍即可:=COUNTIF(A$2:A2,A2)----------A$2固定從A列的第二行開始,A2會變動,下拉時會變成A3,A4,A5...; || A$2:Ai: 範圍從A的第2行到第i行。

    技術分享

    可以C2:男出現一次,C3:當下,男出現2次,C4:自此,男出現3次。C5:女第一次出現,C6:自此,女出現兩次了。
  2. 高級篩選法

    開始--排序與篩選--篩選(高級)

    技術分享

    結果是:

    技術分享

    註:為什麽會出現兩個“男”呢?看我再做一個就明白啦。

    技術分享技術分享

    現在明白了嗎,因為第一次做高級篩選時,沒有表頭,此時進行,會將第一個單元格的內容作為表頭一起復制過去。
  3. 條件格式法

    選擇區域--開始--條件格式--重復值

    技術分享

    技術分享技術分享

    選擇自己需要的標識方式。我選第一種,可以看到,有重復的標紅了。
  4. 數據透視法

    插入--數據透視表--創建數據透視表:選擇用的區域和透視表放置區域---設置透視表:把表頭拖到行和列的字段

    技術分享

    我選擇在當前的工作表匯總匯總透視表

    技術分享

    透視表框架出現:

    技術分享

    在框架的最右邊,可以設置透視表的行、列字段。
    將行字段設置為表頭對應的內容,不難看出,每行的字段將為:男、女和未知

    將列字段設置為表頭的內容,列字段對應的是計數項,所以內容應為男、女和未知對應的個數

    技術分享技術分享

    數據透視表創建成功:

    技術分享

    可以看出:“男”的重復個數為4,“女”的重復個數為14,“未知”的為1,總個數為19.


總結:

  • 函數法:根據範圍選擇不同,可以看到重復的個數,也可以得到這是第幾個重復值。
  • 高級篩選法:將多余的去除,只留下唯一一個。
  • 條件格式法:將有重復項的標記,可以直觀看出哪些有重復項。缺點是只能看到該內容是重復的,不能區分不同的內容的重復項。但可以靈活運用,如果重復項過多,將條件設為找唯一項,可以很快找唯一項也不錯。
  • 數據透視法:將計算重復項這個工作直接做成表格,可以直觀看到每個字段的重復個數。


二、刪除重復數據

  • 通過菜單刪除重復項
  • 通過排序刪除重復項
  • 通過篩選刪除重復項
  1. 通過菜單刪除重復項

    數據--數據工具--刪除重復項

    技術分享
    技術分享

    包括表頭,共有20行,表頭還是作為表頭,內容為19個,結果是刪除了16個重復值,留下了唯一值:男、女、和未知。(高級篩選法也可以有這個效果)
  2. 通過排序刪除重復項(此處和書本可能有點不同,我覺得我這樣做可能更方便些,所以記錄我自己采用的那種)

    排序--刪除
    對第一列,也就是我們想刪除重復項的內容排序,將相同內容放在一起,通過countif,標記每個內容是第幾個重復值,這幾個重復值就是我們所需的
    第一列排序的效果是,女全在前面,男全在後面,countif的結果排序,效果是女列或者男這列,它們按屬於第幾個重復值排好序

    技術分享

    技術分享

    刪除大於1的。

    技術分享

    同理刪除“女”的大於1的。
  3. 通過篩選刪除重復項(此處多加了點自己的想法)

    countif排序---排序--篩選--刪除重復項,具體如下
    通過countif,標記每個內容是第幾個重復值,這幾個重復值就是我們所需的
    數據--排序和篩選:排序
    點擊排序,出現下拉格

    技術分享

    因為靠第三列做篩選,所以點擊第三列下拉框,會出現下面選項,把除了1以外的全部去掉。這裏有幾種方式都可以達到這個效果,我也在下面列出

    技術分享

    第二種方式:

    技術分享技術分享

    技術分享

    第一種結果如下:可以看出每個重復值有幾個,然後復制粘貼到別處即可

    技術分享

    第二種方式結果:

    技術分享

    技術分享技術分享

    技術分享

    留下的就是唯一的了,把灰色篩選那個點一下,就變成不是灰色了,結果就出來了。


    技術分享


    總結
    • 通過菜單刪除重復項:快捷。
    • 通過排序刪除重復項:較為復雜,排序好還需人工看是否大於1,然後刪除。
    • 通過篩選刪除重復項:較為復雜,但比第二種好一點,可以自動先篩選大於1的,再刪除。

《誰說菜鳥不會數據分析》數據處理 之 數據清洗--重復數據的處理