1. 程式人生 > >用Python進行資料整理

用Python進行資料整理

【資料整理】
資料整理是在分析,視覺化和在使用機器學習建立預測模型之前,進行資料收集,資料評估和資料整理的過程
【資料收集】
方法:1、從網上直接下載資料來源;2、用程式設計方法下載資料來源;3、使用手頭的檔案
【資料評估】
評估我們的資料,已確定哪些是乾淨的資料,以及一旦丟失哪些資料,我們還需要收集哪些資料。確保我們的資料形式,能讓後續分析更輕鬆一點,更注重這方便一些。

資料評估主要是評估資料的質量和完整度。
資料質量問題:1、資料丟失;2、資料無效;3、資料不準確;4、資料不一致,單位不同
資料整潔度標準:1、每個變數構成一列;2、每個觀察結果構成一行;3、每種型別的觀察單位構成一個表格。

評估的方法:目測評估(小樣本)、程式設計評估
使用.head顯示DataFrame前5行
使用.tail顯示DataFrame最後5行
顯示.info顯示DataFrame基本摘要
使用.value_counts顯示年份一欄的輸入數
df.Year.value_counts(),value_counts是用於series,不能用於dataframe.
【資料清洗】
程式設計資料清理過程分為3步:定義,程式碼,練習
定義:指以書面形式定義資料清洗計劃,其中我們需將評估轉變為定義的清洗任務。這個計劃也可作為一個知道清單,所以其他人(或我們自己將來)也可以回顧和重現自己的工作。
編碼:指將這些定義轉換為程式碼並執行該程式碼。
練習:指練習我們的資料集,通常使用程式碼,以確保有效完成我們的清洗工作。

  • 在清洗之前先準備副本
df_clean = df.copy()
  • 重新命名列標題
df_clean = df_clean.rename(columns = {'oldname1':'newname1',
                                      'oldname2':'newname2'})
  • 內容不一致問題
df_clean = pandas.series.replace(to_replace=None,value=None,inplace=False,limit=None,regex=False,method='pad',axis
=None) * 用"value"或第二個引數替換“to_replace”中給出的值-即第一個引數 * inplace的預設值為假,我們要將它轉換成True.inplace真值是指我們只能在這裡寫這行程式碼,並執行這行程式碼,它所產生的變化將反應在df_clean中,如果這裡沒有inplace真值,我們就必須將次函式的結果重新賦給Startdate