Python數據分析（二）pandas缺失值處理

阿新 • • 發佈：2018-07-19

taf spa 3.0 .data float 數據分析 pandas panda pri

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(5, 3), index=[‘a‘, ‘c‘, ‘e‘, ‘f‘,
‘h‘],columns=[‘one‘, ‘two‘, ‘three‘])

df = df.reindex([‘a‘, ‘b‘, ‘c‘, ‘d‘, ‘e‘, ‘f‘, ‘g‘, ‘h‘])
print(df)
print(‘################缺失值判斷######################‘)
print(‘--------Series的缺失值判斷--------- 
‘)
print (df[‘one‘].isnull())
‘‘‘

--------Series的缺失值判斷---------

a    False

b     True
c    False
d     True
e    False
f    False
g     True
h    False
Name: one, dtype: bool

‘‘‘
print(‘---------輸出Series缺失值和索引--------‘)
print(df[‘one‘][df[‘one‘].isnull()])
‘‘‘

---------輸出Series缺失值和索引--------
b   NaN
d   NaN
g   NaN
Name: one, dtype: float64


‘‘‘
print(‘--------dataframe的缺失值判斷---------‘)
print(df.isnull())
‘‘‘

--------dataframe的缺失值判斷---------
     one    two  three
a  False  False  False
b   True   True   True
c  False  False  False
d   True   True   True
e  False  False  False
f  False  False  False
g   True   True   True
h  False  False  False


‘‘‘
print(‘--------輸出dataframe的缺失值和索引---------‘)
data = df[df.isnull().values==True]
print(data[~data.index.duplicated()])
‘‘‘

--------輸出dataframe的缺失值和索引---------
   one  two  three
b  NaN  NaN    NaN
d  NaN  NaN    NaN
g  NaN  NaN    NaN


‘‘‘
print(‘--------輸出dataframe的有缺失值的列---------‘)
print(df.isnull().any())
‘‘‘

--------輸出dataframe的有缺失值的列---------
one      True
two      True
three    True
dtype: bool


‘‘‘
print(‘################缺失值過濾######################‘)
print(‘--------Series的缺失值過濾---------‘)
print(df[‘one‘].isnull())
‘‘‘

################缺失值過濾######################
--------Series的缺失值過濾---------
a    False
b     True
c    False
d     True
e    False
f    False
g     True
h    False
Name: one, dtype: bool


‘‘‘
print(‘--------使用dropna方法刪除缺失數據,返回一個刪除後的Series--------‘)
print(df[‘one‘].dropna())
‘‘‘

--------使用dropna方法刪除缺失數據,返回一個刪除後的Series--------
a   -0.211055
c   -0.870090
e   -0.203259
f    0.490568
h    1.437819
Name: one, dtype: float64


‘‘‘
print(‘--------dataframe的缺失值過濾---------‘)
print(df.dropna())
‘‘‘

--------dataframe的缺失值過濾---------
        one       two     three
a -0.211055 -2.869212  0.022179
c -0.870090 -0.878423  1.071588
e -0.203259  0.315897  0.495306
f  0.490568 -0.968058 -0.999899
h  1.437819 -0.370934 -0.482307


‘‘‘
print(‘-------當行全為NaN的時候,才刪除,參數how默認是any,含有缺失值就刪除--------‘)
print(df.dropna(how="all"))
‘‘‘

-------當行全為NaN的時候,才刪除,參數how默認是any,含有缺失值就刪除--------
        one       two     three
a -0.211055 -2.869212  0.022179
c -0.870090 -0.878423  1.071588
e -0.203259  0.315897  0.495306
f  0.490568 -0.968058 -0.999899
h  1.437819 -0.370934 -0.482307


‘‘‘
print(‘################缺失值填充######################‘)
print(‘------指定特殊值填充缺失值-------‘)
print(df.fillna(0))
‘‘‘

################缺失值填充######################
------指定特殊值填充缺失值-------
        one       two     three
a -0.211055 -2.869212  0.022179
b  0.000000  0.000000  0.000000
c -0.870090 -0.878423  1.071588
d  0.000000  0.000000  0.000000
e -0.203259  0.315897  0.495306
f  0.490568 -0.968058 -0.999899
g  0.000000  0.000000  0.000000
h  1.437819 -0.370934 -0.482307


‘‘‘
print(‘------不同的列用不同的值填充------‘)
print(df.fillna({‘one‘:1,‘two‘:2,‘three‘:3}))
‘‘‘

------不同的列用不同的值填充------
        one       two     three
a -0.211055 -2.869212  0.022179
b  1.000000  2.000000  3.000000
c -0.870090 -0.878423  1.071588
d  1.000000  2.000000  3.000000
e -0.203259  0.315897  0.495306
f  0.490568 -0.968058 -0.999899
g  1.000000  2.000000  3.000000
h  1.437819 -0.370934 -0.482307


‘‘‘
print(‘------前向填充------‘)
print(df.fillna(method="ffill"))
‘‘‘

------前向填充------
        one       two     three
a -0.211055 -2.869212  0.022179
b -0.211055 -2.869212  0.022179
c -0.870090 -0.878423  1.071588
d -0.870090 -0.878423  1.071588
e -0.203259  0.315897  0.495306
f  0.490568 -0.968058 -0.999899
g  0.490568 -0.968058 -0.999899
h  1.437819 -0.370934 -0.482307


‘‘‘
print(‘------後向填充------‘)
print(df.fillna(method="bfill"))
‘‘‘

------後向填充------
        one       two     three
a -0.211055 -2.869212  0.022179
b -0.870090 -0.878423  1.071588
c -0.870090 -0.878423  1.071588
d -0.203259  0.315897  0.495306
e -0.203259  0.315897  0.495306
f  0.490568 -0.968058 -0.999899
g  1.437819 -0.370934 -0.482307
h  1.437819 -0.370934 -0.482307


‘‘‘

print(‘------平均值填充------‘)
print(df.fillna(df.mean()))
‘‘‘

------平均值填充------
        one       two     three
a -0.211055 -2.869212  0.022179
b  0.128797 -0.954146  0.021373
c -0.870090 -0.878423  1.071588
d  0.128797 -0.954146  0.021373
e -0.203259  0.315897  0.495306
f  0.490568 -0.968058 -0.999899
g  0.128797 -0.954146  0.021373
h  1.437819 -0.370934 -0.482307


‘‘‘

Python數據分析（二）pandas缺失值處理

taf spa 3.0 .data float 數據分析 pandas panda pri import pandas as pd import numpy as np df = pd.DataFrame(np.random.randn(5, 3), index

[讀書筆記] Python數據分析（一）準備工作

基礎 htm 環境防止功能多維處理工具 ati 增強 1. python中數據結構：矩陣，數組，數據框，通過關鍵列相互聯系的多個表（SQL主鍵，外鍵），時間序列 2. python 解釋型語言，程序員時間和CPU時間衡量，高頻交易系統 3. 全局解釋器鎖GIL，

Python數據結構（二）

對象 ret long [] 消費序列 thead priority 實例 array固定類型的數據序列，與list類似，只不過成員必須是相同的基本類型 array.typecodes #包含所有可用類型代碼的字符串bBuhHiIlLqQfd 輸入代碼C型Python

Python操作MySQL數據庫（二）

Nid env values res threading %s als 當前 absolute pymsql是Python中操作MySQL的模塊，其使用方法和MySQLdb幾乎相同。下載安裝： pip install pymysql 1.執行SQL語句

數據結構（二）:線性表的使用原則以及鏈表的應用-稀疏矩陣的三元組表示

查找 triple 表的操作結構循環鏈表循環大於 ria 幫助上一篇博文中主要總結線性表中的鏈式存儲結構實現，比方單向鏈表、循環鏈表。還通過對照鏈表和順序表的多項式的存儲表示。說明鏈表的長處。能夠參看上篇博文http://blog.csdn.net/lg125

【數據庫】MySQL數據庫（二）

關閉數據庫 dos命令 medium 數據庫密碼 gin mysql tables 日期導出數據一、數據庫文件的導出 1.在DOS命令行下導出數據庫(帶數據) mysqldump -u root -p 數據庫名 > E:\wamp\www\lamp175\lam

數據結構（二）線性表——鏈表

erro urn 找到頭結點 tee 存在結構 strong 函數通常情況下，鏈接可分為單鏈表、雙向鏈表和循環鏈表三種常用類型。一、單鏈表基本操作的實現使用鏈式存儲結構來實現的線性表稱為鏈表。首元結點、頭結點、頭指針、空指針。 1.單鏈表的類型定義 typede

《Java從入門到放棄》入門篇：springMVC數據傳遞（二）

java springmvc modelandview 上一篇講完了springMVC中數據傳遞中的接收數據，今天繼續完成數據的向後傳遞。數據傳遞的核心對象ModelAndView，註意其包名，不要引用錯了！正確的：org.springframework.web.servlet.ModelAndV

MongoDB的文檔、集合、數據庫（二）

一個數說明 ava 雙向鏈表 upsert block 根據和數 pat 　　為了理解MongoDB的名詞，可以將其於關系型數據庫進行對比：　　　　　　　　　　　　一、文檔　　概述文檔是MongoDB的核心概念，是數據的基本單元，非常類似於關系數據庫中的行。在

Python數據結構（一）字典

字典0x 01 字典簡介子典和列表是python中最常用的兩種數據類型，字典是鍵值對(key-value)格式的數據類型，它和列表一樣也有索引，但不是列表中的下標，而是使用key來作為索引，key所對應的值就是value，所以字典是無序的，因此任何時候只要訪問字典的key，便可以得到對應的value，

[數據結構（二）]七種排序算法的C++簡單實現

末尾技術分享下標 ima http 直接 wap temp 部分一.冒泡排序(Bubble Sort) 基本思想：兩兩比較相鄰記錄的關鍵字，如果反序則交換，直到沒有反序的記錄為止。 //冒泡排序 void BubbleSort(int *p, int lengt

數據結構（二）——線性表簡介

pen 線性 virtual spa 多個集合 mes index esp 數據結構（二）——線性表簡介一、線性表簡介 1、線性表簡介線性表是具有相同類型的n個數據元素的有限序列A0，A1，A2，...，An-1。Ai是表項，n是表的長度。 2、線性表的表現形式線性

QuickBI助你成為分析師-數據建模（二）

函數數據集摘要：數據集編輯功能界面介紹以及常見問題總結。在數據集編輯界面可以進行數據建模來更好的展示數據，創建數據集默認將數值類型字段作為度量，日期、字符串等類型作為維度，度量可以根據維度分組展示。下面來介紹一下常見功能：維度編輯：如下圖為維度編輯功能： 1.編輯：修改維度顯示名以及備

數據庫（二）

MYSQL phpMyAdmin GUI mysql邏輯架構 mysql存儲引擎 mysql邏輯模塊 INNODB和myISAM的區別 INNODB和myISAM的區別2 安裝基於mysql的GUI視圖的軟件--phpMyAdmin條件1.phpMyAdmin軟件包2.ph

python數據結構（三）

... depth 定制 __main__ elf pri 實例 The 默認 copy 復制對象，copy模塊包含了兩個行數copy和deepcopy，用於復制現有的對象。淺副本（淺復制） copy()創建的淺副本是一個新容器，其中填充了原對象內容的引用 import

數據結構（二）鏈表

形式時間資源結構實現線性插入一個數簡單一、表的常見操作對於一個鏈表，某個元素有其前驅和後繼。對表的操作：find返回關鍵字首次出現的位置；insert和delete插入和刪除某個元素；findkth返回某個位置上的元素；二、表的簡單數組實現定

C語言數據結構（二）

span 有關 sel [] lec 原則存儲情況規格算法和算法的衡量一、算法算法是為了解決某類問題而規定的一個有限長的操作序列。一個算法必須滿足以下五個重要特性： 1.有窮性對於任意一組合法輸入值，在執行又窮步驟之後一定能結束，即:算法中的每個步驟都能在

MySQLdb操作數據庫（二）

fetchall hone 集中 HERE host 操作數方法 type exception 查詢數據使用execute()函數執行查詢sql語句後，得到的只是受影響的行數，並不能真正拿到我們查詢的內容。沒關系，這裏遊標cursor中還提供了三種提取數據的方法：fet

SQLServer數據庫（二）

各類 fileg 主鍵索引一行 soft advance 工作單元 @service 模塊化數據庫設計：就是將數據庫中的數據庫實體及這些數據庫實體之間的關系，進行規劃和結構化的過程。項目開發過程：需求分析概要設計詳細設計代碼編寫運行測試打包發行數據庫的系

數據結構（二）棧與隊列---遞歸之漢羅塔

隊列金剛最終想法兩個實現 ... 分享命令（一）漢羅塔的了解大梵天創造世界的時候做了三根金剛石柱子，在一根柱子上從下往上按照大小順序摞著64片黃金圓盤。大梵天命令婆羅門把圓盤從下面開始按大小順序重新擺放在另一根柱子上。並且規定，在小圓盤上不能放大圓盤，在三

Python數據分析（二）pandas缺失值處理

相關推薦