1. 程式人生 > >大數據處理入門基礎之python

大數據處理入門基礎之python

問題: 轉變 方法 行數 head 工作 無效 清理 panda

【數據整理】
數據整理是在分析,可視化和在使用機器學習建立預測模型之前,進行數據收集,數據評估和數據整理的過程
【數據收集】
方法:1、從網上直接下載數據源;2、用編程方法下載數據源;3、使用手頭的文件
【數據評估】
評估我們的數據,已確定哪些是幹凈的數據,以及一旦丟失哪些數據,我們還需要收集哪些數據。確保我們的數據形式,能讓後續分析更輕松一點,更註重這方便一些。

數據評估主要是評估數據的質量和完整度。
數據質量問題:1、數據丟失;2、數據無效;3、數據不準確;4、數據不一致,單位不同
數據整潔度標準:1、每個變量構成一列;2、每個觀察結果構成一行;3、每種類型的觀察單位構成一個表格。

評估的方法:目測評估(小樣本)、編程評估


使用.head顯示DataFrame前5行
使用.tail顯示DataFrame最後5行
顯示.info顯示DataFrame基本摘要
使用.value_counts顯示年份一欄的輸入數
df.Year.value_counts(),value_counts是用於series,不能用於dataframe.
【數據清洗】
編程數據清理過程分為3步:定義,代碼,練習
定義:指以書面形式定義數據清洗計劃,其中我們需將評估轉變為定義的清洗任務。這個計劃也可作為一個知道清單,所以其他人(或我們自己將來)也可以回顧和重現自己的工作。
編碼:指將這些定義轉換為代碼並執行該代碼。
練習:指練習我們的數據集,通常使用代碼,以確保有效完成我們的清洗工作。

在清洗之前先準備副本
df_clean = df.copy()
1
重命名列標題
df_clean = df_clean.rename(columns = {‘oldname1‘:‘newname1‘,
‘oldname2‘:‘newname2‘})
1
2
內容不一致問題
df_clean = pandas.series.replace(to_replace=None,value=None,inplace=False,limit=None,regex=False,method=‘pad‘,axis=None)
* 用"value"或第二個參數替換“to_replace”中給出的值-即第一個參數


* inplace的默認值為假,我們要將它轉換成True.inplace真值是指我們只能在這裏寫這行代碼,並執行這行代碼,它所產生的變化將反應在df_clean中,如果這裏沒有inplace真值,我們就必須將次函數的結果重新賦給Startdate列

大數據處理入門基礎之python