1. 程式人生 > >Python Pandas找到缺失值的位置

Python Pandas找到缺失值的位置

問題描述: 

python pandas判斷缺失值一般採用 isnull(),然而生成的卻是所有資料的true/false矩陣,對於龐大的資料dataframe,很難一眼看出來哪個資料缺失,一共有多少個缺失資料,缺失資料的位置。

首先對於存在缺失值的資料,如下所示

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(10,6))
# Make a few areas have NaN values
df.iloc[1:3,1] = np.nan
df.iloc[5,3] = np.nan
df.iloc[7
:9,5] = np.nan
         0         1         2         3         4         5
0  0.520113  0.884000  1.260966 -0.236597  0.312972 -0.196281
1 -0.837552       NaN  0.143017  0.862355  0.346550  0.842952
2 -0.452595       NaN -0.420790  0.456215  1.203459  0.527425
3  0.317503 -0.917042  1.780938 -1.584102  0.432745  0.389797
4 -0.722852  1.704820
-0.113821 -1.466458 0.083002 0.011722 5 -0.622851 -0.251935 -1.498837 NaN 1.098323 0.273814 6 0.329585 0.075312 -0.690209 -3.807924 0.489317 -0.841368 7 -1.123433 -1.187496 1.868894 -2.046456 -0.949718 NaN 8 1.133880 -0.110447 0.050385 -1.158387 0.188222 NaN 9 -0.513741 1.196259 0.704537 0.982395 -0.585040
-1.693810
  • df.isnull()會產生如下結果
       0      1      2      3      4      5
0  False  False  False  False  False  False
1  False   True  False  False  False  False
2  False   True  False  False  False  False
3  False  False  False  False  False  False
4  False  False  False  False  False  False
5  False  False  False   True  False  False
6  False  False  False  False  False  False
7  False  False  False  False  False   True
8  False  False  False  False  False   True
9  False  False  False  False  False  False

df.isnull().any()則會判斷哪些”列”存在缺失值

0    False
1     True
2    False
3     True
4    False
5     True
dtype: bool

對於該問題,可以採用如下方式解決:

df[df.isnull().values==True]
Out[126]: 
          0         1         2         3         4         5
1  1.090872       NaN -0.287612 -0.239234 -0.589897  1.849413
2 -1.384721       NaN -0.158293  0.011798 -0.564906 -0.607121
5 -0.477590 -2.696239  0.312837       NaN  0.404196 -0.797050
7  0.369665 -0.268898 -0.344523 -0.094436  0.214753       NaN
8 -0.114483 -0.842322  0.164269 -0.812866 -0.601757       NaN

可以只顯示存在缺失值的行列,清楚的確定缺失值的位置。

相關推薦

Python Pandas找到缺失位置

問題描述: python pandas判斷缺失值一般採用 isnull(),然而生成的卻是所有資料的true/false矩陣,對於龐大的資料dataframe,很難一眼看出來哪個資料缺失,一共有多少個缺失資料,缺失資料的位置。首先對於存在缺失值的資料,如下所示import p

python pandas處理缺失

缺失值:python中顯示為NaN,python用np.nan,None表示在簡單的運算+-*/中,有缺失值的畫,運算結果在相應的位置上也是缺失值在描述性統計sum,mean,min.max等中,NaN都是作為0進行運算操作:判斷返回一個含有布林值的物件,True表示是缺失值

python學習筆記】42:Pandas資料缺失/異常/重複處理

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。 缺失值處理 Pandas資料物件中的缺失值表示為NaN。 import pandas as pd # 讀取杭州天氣檔案 df = pd.read_csv("E:/Data/practice/hz_we

python 刪除列表缺失、刪除重複行並不保留唯一

import pandas as pd import re f1=pd.read_excel('01.xlsx')   f1.dropna() #去除含有缺失值的一行   f1.drop_duplicates(subset=['A'],keep

pandas 處理缺失[dropna、drop、fillna]

面對缺失值三種處理方法: option 1: 去掉含有缺失值的樣本(行) option 2:將含有缺失值的列(特徵向量)去掉 option 3:將缺失值用某些值填充(0,平均值,中值等) 對於dro

Pandas DataFrame缺失的查詢與填充

檢視DataFrame中每一列是否存在空值: temp = data.isnull().any() #列中是否存在空值 print(type(temp)) print(temp) 結果如下,返回結果型別是Series,列中不存在空值則對應值為False: <cla

python pandas消除空和空格的混淆

在人工採集資料時,經常有可能把空值和空格混在一起,一般也注意不到在本來為空的單元格里加入了空格。這就給做資料處理的人帶來了麻煩,因為空值和空格都是代表的無資料,而pandas中Series的方法notnull()會把有空格的資料也納入進來,這樣就不能完整地

Pandas資料庫缺失處理函式dropna

Python資料分析博文彙總缺失值處理函式dropna:去除資料結構中值為空得資料。函式用法:dropna()from pandas import read_csv; df = read_csv('E://pythonlearning//datacode//firstpart

Python pandas 單條 染色體體 位置 區間 SNP 資料 提取 haploview

import pandas as pd sheet1 = pd.read_excel('C:\\Users\\windows10\\Desktop\\Python練習\\文字流\\chrom 1\\chrom1_map.xlsx') sheet1 print(type(sheet1)) s

pandas:填充缺失 fillna("missing") 和fillna("missing",inplace=True)的區別

當資料中存在NaN缺失值時,我們可以用其他數值替代NaN,主要用到了DataFrame.fillna()方法,下面我們來看看具體的用法: 1.先來建立一個帶有缺失值的DataFrame: # co

pandas處理缺失補全及DictVectorizer特徵轉換

下面介紹的是用pands讀取泰坦尼克遇難船員的資料,然後挑選特徵,補全缺失值,特徵轉換。 1.pands讀取資料 titanic=pd.read_csv('./titanic.txt') 其資料形式如下: |row_num |pclass|survived|n

pandas:填充缺失

當資料中存在NaN缺失值時,我們可以用其他數值替代NaN,主要用到了DataFrame.fillna()方法,下面我們來看看具體的用法: 1.先來建立一個帶有缺失值的DataFrame:import

python pandas消除空和空格以及 Nan資料替換

在人工採集資料時,經常有可能把空值和空格混在一起,一般也注意不到在本來為空的單元格里加入了空格。這就給做資料處理的人帶來了麻煩,因為空值和空格都是代表的無資料,而pandas中Series的方法notnull()會把有空格的資料也納入進來,這樣就不能完整地

Python時間序列缺失處理(日期缺失填充)完全教程-附Python完整例程

前言 因近期進行時間序列分析時遇到了資料預處理中的缺失值處理問題,其中日期缺失和填充在網上沒有找到較好較全資料,耗費了我一晚上工作時間,所以下面我對這次時間序列缺失值處理學習做了以下小結以供之後同行們參考指正。 時間序列缺失值處理 一、程式設計前準備        

python利用pandas出矩陣的最大或最小及其對應的位置

import pandas as pd text = pd.DataFrame([[21,45,78],[23,56,89],[14,25,36],[47,58,69]]) # 先建立一個矩陣 print(text) Out[1]: 0 1 2 0 21 45 78 1

python pandas 如何找到NaN、缺失或者某些元素的索引名稱以及位置,np.where的使用

我們在處理資料的時候,經常需要檢查資料的質量,也需要知道出問題的資料在哪個位置。我找了很久,也嘗試了很多辦法,都沒能找到一種非常直接的函式,本文所要介紹的是一種我認為比較方便的方法:np.where()

Python數據分析(二)pandas缺失處理

taf spa 3.0 .data float 數據分析 pandas panda pri import pandas as pd import numpy as np df = pd.DataFrame(np.random.randn(5, 3), index

python 尋找list中最大、最小位置; reshpe(-1,1)提示,格式話出錯,pandas copy

1:尋找list中最大值、最小值位置 轉載自:https://blog.csdn.net/fengjiexyb/article/details/77435676 c = [-10,-5,0,5,3,10,15,-20,25] print c.index(min(c)) # 返回最小值 pri

Python缺失分類及Pandas缺失資料處理函式

一、Python中缺失值分類 Python中有三種缺失值(空值): 形式 含義 None Python內建的None值,如建立一個空的列表list=[] NA 在pandas中,將缺失值表示為NA,表示不可用not available,主

[Python] Pandas 對資料進行查詢、替換、篩選、排序、重複缺失處理

[TOC] 查詢和替換是日常工作中很常見的資料預處理操作,下面就來講解如何使用pandas模組中的函式對DataFrame中的資料進行查詢和替換。 ## 1. 資料檔案 [產品統計表.7z](https://files.cnblogs.com/files/feily/%E4%BA%A7%E5%93%81%E