18-09-26 pandas 基礎學習01

阿新 • • 發佈：2018-11-05

# 一 資料結構介紹********************

# 在pandas 中有兩類非常重要的資料結構，1序列Series 和2 資料框DataFrame,
# Series 類似於numpy  中的一維資料，除了通吃一維陣列可用的函式和方法，而且其可通過
#索引標籤的方式獲取資料，還具有索引的自動對齊功能；
# DataFrame 類似於numpy 中的二維陣列，同樣可以通用numpy 陣列的函式和方法，二維還具有
# 其他靈活應用。

# 1 Series 的建立 類似一維陣列==============

# 序列的建立主要有三種方式
# 方式1 通過一維陣列建立序列

import numpy as np
import pandas as pd

arr1 = np.arange(10)
# print(arr1,type(arr1))
# [0 1 2 3 4 5 6 7 8 9] <class 'numpy.ndarray'>

s1 = pd.Series(arr1)  #自動建立索引資料並自動補齊
# print(s1,type(s1))
# 0    0
# 1    1
# 2    2
# 3    3
# 4    4
# 5    5
# 6    6
# 7    7
# 8    8
# 9    9
# dtype: int32 <class 'pandas.core.series.Series'>

#自定義索引建立
# _s1 = pd.Series([2,4],index=["王","羅"])
_s1 = pd.Series({"王":2,"羅":4}) #一樣的
# print(_s1)
# 王    2
# 羅    4
# dtype: int64

# 方式2 通過字典的方式建立序列 (字典的鍵代表縱軸索引) 


dic1 = {"a":1,"b":2,"c":3,"d":4,"e":5}
s2 = pd.Series(dic1)
# print(s2,type(s2))
# a    1
# b    2
# c    3
# d    4
# e    5
# dtype: int64 <class 'pandas.core.series.Series'>

# 方式3 通過DataFrame 中的某一行或某一列建立序列
# 暫時略

# 2 DataFrame =====的建立 類似二維陣列  帶有橫軸縱軸的索引##
# 資料框的建立主要有三種方式

# 方式1 通過二維陣列建立資料框(橫向 縱向加上類似索引資料)
arr2 = np.array(np.arange(12)).reshape(4,3)
# print(arr2,type(arr2))
# [[ 0  1  2]
#  [ 3  4  5]
#  [ 6  7  8]
#  [ 9 10 11]] <class 'numpy.ndarray'>

df1 = pd.DataFrame(arr2)
# print(df1,type(df1))
#    0   1   2
# 0  0   1   2
# 1  3   4   5
# 2  6   7   8
# 3  9  10  11 <class 'pandas.core.frame.DataFrame'>

# 方式2 通過字典的方式建立資料框 (字典的鍵代表橫軸索引) 

# 以下以兩種字典來建立資料框，
# 一個是字典列表，一個是巢狀字典

dic2 = {"a":[1,2,3,4],"b":[5,6,7,8],"c":[9,10,11,12],"d":[13,14,15,16]}

df2 = pd.DataFrame(dic2)
# print(df2,type(df2))

#    a  b   c   d
# 0  1  5   9  13
# 1  2  6  10  14
# 2  3  7  11  15
# 3  4  8  12  16 <class 'pandas.core.frame.DataFrame'>
# 一個是巢狀字典 外層字典的鍵對應橫軸的索引 ，內層字典的鍵對應縱軸的索引
dic3 = {"A":{"a1":1,"b1":2,"c1":3,"d1":4},
        "B":{"a2":5,"b2":6,"c2":7,"d2":8},
        "C":{"a3":9,"b3":10,"c3":11,"d3":12}}

df3 = pd.DataFrame(dic3)
# print(df3,type(df3))

#       A    B     C
# a1  1.0  NaN   NaN
# a2  NaN  5.0   NaN
# a3  NaN  NaN   9.0
# b1  2.0  NaN   NaN
# b2  NaN  6.0   NaN
# b3  NaN  NaN  10.0
# c1  3.0  NaN   NaN
# c2  NaN  7.0   NaN
# c3  NaN  NaN  11.0
# d1  4.0  NaN   NaN
# d2  NaN  8.0   NaN
# d3  NaN  NaN  12.0 <class 'pandas.core.frame.DataFrame'>


# 方式三 通過資料框的方式建立資料框（列的標籤索引） 


df4 = df3[["A","B"]] #擷取一部分的形式 
# print(df4,type(df4))

#       A    B
# a1  1.0  NaN
# a2  NaN  5.0
# a3  NaN  NaN
# b1  2.0  NaN
# b2  NaN  6.0
# b3  NaN  NaN
# c1  3.0  NaN
# c2  NaN  7.0
# c3  NaN  NaN
# d1  4.0  NaN
# d2  NaN  8.0
# d3  NaN  NaN <class 'pandas.core.frame.DataFrame'>

df5 = df3["C"]  #擷取一部分資料框
# print(df5,type(df5))
# a1     NaN
# a2     NaN
# a3     9.0
# b1     NaN
# b2     NaN
# b3    10.0
# c1     NaN
# c2     NaN
# c3    11.0
# d1     NaN
# d2     NaN
# d3    12.0
# Name: C, dtype: float64 <class 'pandas.core.series.Series'>

# 手動建立橫軸縱軸索引的資料框
a = pd.DataFrame([[2,4,6,8], [12,14,16,18]], index=['語文', '數學'], columns=['周', '孔', '王', '李'])
# print(a)

#      周   孔   王   李
# 語文   2   4   6   8
# 數學  12  14  16  18


# 二 資料索引index********************

# 細緻的朋友可能會發現一個現象，無論是序列也好，還是資料框也好，物件的最左邊總有一個非
# 原始資料物件，這個是什麼呢？不錯這就是我們接下來要介紹的索引

# 在我們看來序列或資料框的索引有兩大用處，一個數通過索引值或索引標籤獲取目標資料，
# 另一個是通過索引，可以是序列或資料框的計算，操作實現自動化對齊，下面我們具體應用下、

# 1 通過索引值或索引標籤獲Series(序列)取資料 ==============
s3 = pd.Series(np.array([1,1,2,3,5,8])) #序列自動生成一個從0開始的自增索引
# print(s3,type(s3))

# 0    1
# 1    1
# 2    2
# 3    3
# 4    5
# 5    8
# dtype: int32 <class 'pandas.core.series.Series'>

# 自定義新增索引
s3.index = ["a","b","c","d","e","f"]  # 自定義更改索引值
# print(s3)
# a    1
# b    1
# c    2
# d    3
# e    5
# f    8
# dtype: int32
#序列Series 的切片簡單應用
# 序列有了索引，就可以通過索引值或者索引標籤進行資料的獲取
# print(s3[3])  #第四個索引值獲取的資料    值3
# print(s3["d"]) #索引d 這屬於標籤索引 是名稱   對應的值3
# print(s3[[1,3,5]]) # 通過陣列選取索引 對應的值

# b    1
# d    3
# f    8
# dtype: int32

# print(s3[["a","b","e","d"]])#多行的資料 

# a    1
# b    1
# e    5
# d    3
# dtype: int32

# print(s3[:4]) #索引的值從0 到第3個 四個值資料 

# a    1
# b    1
# c    2
# d    3
# dtype: int32

# print(s3["c":]) #從第c 個索引到最後
# c    2
# d    3
# e    5
# f    8
# dtype: int32

# print(s3["b":"e"])
# b    1
# c    2
# d    3
# e    5
# dtype: int32



# 注意 千萬注意----------------======￥￥￥￥￥
# 如果通過索引標籤獲取資料的話，末端標籤所對應的值是可以返回的，在一維陣列中就無法通過索引
# 標籤獲取資料，這也是序列與一維陣列的一個區別 


# 2 自動化對齊 ==============  只要相同的索引值相加，不相同的為NaN
# 如果有兩個序列，需要對這兩個序列進行算數運算，這時索引的存在就體現了它的價值
# 自動化對齊

s4 = pd.Series(np.array([10,11,12,13,14,15]))
s4.index = ["a","b","c","d","e","f"]
# print(s4)
# a    10
# b    11
# c    12
# d    13
# e    14
# f    15
# dtype: int32

s5 = pd.Series(np.array([2,3,4,5,6,7]))
s5.index = ["a","c","g","b","d","f"]
# print(s5)
# a    2
# c    3
# g    4
# b    5
# d    6
# f    7
# dtype: int32

#序列之和 
# print(s4 + s5)   #自動補齊（只要相同的索引值相加，不相同的為NaM）
# a    12.0
# b    16.0
# c    15.0
# d    19.0
# e     NaN
# f    22.0
# g     NaN
# dtype: float64

#序列之間整除 
# print(s4 //s5 )   #整除
# a    5.0
# b    2.0
# c    4.0
# d    2.0
# e    NaN
# f    2.0
# g    NaN
# dtype: float64


# 由於s5中沒有對應的g索引，s6中沒有對應的e索引，所以資料的運算會產生兩個缺失值NaN。
# 注意，這裡的算術結果就實現了兩個序列索引的自動對齊，而非簡單的將兩個序列加總或相除。
# 對於資料框的對齊，不僅僅是行索引的自動對齊，同時也會自動對齊列索引（變數名）
# 資料框中同樣有索引，而且資料框是二維陣列的推廣，所以其不僅有行索引，而且還存在列索引，
# 關於資料框中的索引相比於序列的應用要強大的多，這部分內容將放在資料查詢中講解。



#三 pandas 的應用********************

# 這裡的查詢資料相當於R語言裡的subset功能，可以通過布林索引有針對的
# 選取元資料的子集、指定行，指定列等，我們先匯入一個students資料集

可以手動建立縱向索引 index  也可以建立橫向列的colums 

# 1 手動建立橫軸縱軸索引的資料框 
df6 = pd.DataFrame([[2,4,6,8], [12,14,16,18]], index=['語文', '數學'], columns=['周', '孔', '王', '李'])
# print(df6)

#      周   孔   王   李
# 語文   2   4   6   8
# 數學  12  14  16  18
df7 = pd.DataFrame([["小馬","male",12,156,40,"上海",79],["小驢","male",14,166,50,"深圳",89]],index=[1,2],
                   columns=["name","sex","age","heigh","weight","address","grade"])
# print(df7)
#   name   sex  age  heigh  weight address  grade
# 1   小馬  male   12    156      40      上海     79
# 2   小驢  male   14    166      50      深圳     89

# 2指定列排順序 並可擷取不同的列 方式一擷取列 其實這種也行[:,[0,3]] (擷取第1列和第4列)
df8 = pd.DataFrame(df7,columns=["name","age","sex"])
# print(df8)
#   name  age   sex
# 1   小馬   12  male
# 2   小驢   14  male
# 2-1 方式二擷取列
df9 = df7[["name","age","sex"]]
# print(df9)

# 3 傳入列在資料中找不到就會產生NA值
df10 = pd.DataFrame(df7,index=[1,2,3,4,5],columns=["name","age","sex","address"])
# print(df10)
#   name   age   sex address
# 1   小馬  12.0  male      上海
# 2   小驢  14.0  male      深圳
# 3  NaN   NaN   NaN     NaN
# 4  NaN   NaN   NaN     NaN
# 5  NaN   NaN   NaN     NaN

# 4 巢狀字典（字典組成的字典）建立DataFrame ,不等長也可，自動填充NaN 外層鍵是列索引，內行鍵是行索引

dic4 = {
    'name':{1:'小明',2:'小華',3:'小紅',4:'小青',5:'小蘭'},
    'sex':{1:1,2:0,3:0,4:1,5:0},
    'age':{2:28,3:38,4:48,5:8}    #此時缺少索引1 
    }

df11 = pd.DataFrame(dic4)
# print(df11)

#   name  sex   age
# 1   小明    1   NaN
# 2   小華    0  28.0
# 3   小紅    0  38.0
# 4   小青    1  48.0
# 5   小蘭    0   8.0

可擷取不同的行 類似擷取不同的行 對比擷取不同的列 columns=["name","age","sex"]) ============

df12 = pd.DataFrame(df11,index=[2,3,4,5,6])  
# print(df12)
#   name  sex   age
# 2   小華  0.0  28.0
# 3   小紅  0.0  38.0
# 4   小青  1.0  48.0
# 5   小蘭  0.0   8.0
# 6  NaN  NaN   NaN

# ---
# 5 和Series 組成的字典，建立DataFrame同巢狀字典,指定內層字典鍵（行索引），沒有的自動填充NaM

dic5 = {
    "name":pd.Series(["小王","小羅","小張","小李","小劉"],
                     index=[1,2,3,4,5]),
    "sex":pd.Series([1,1,1,0,0], index=[1,2,3,4,5]),
    "age":pd.Series([20,31,33,22],index=[2,3,4,5])
}
df12 = pd.DataFrame(dic5)
# print(df12)
#   name  sex   age
# 1   小王    1   NaN
# 2   小羅    1  20.0
# 3   小張    1  31.0
# 4   小李    0  33.0
# 5   小劉    0  22.0

# 6刪除行預設 axis=0   刪除列  axis=1
df13 = df12.drop([3],axis=0)#刪除第三行按照標籤索引查詢 
# print("刪除行",df13)
#   name  sex   age
# 1   小王    1   NaN
# 2   小羅    1  20.0
# 4   小李    0  33.0
# 5   小劉    0  22.0

df14 = df12.drop(["sex"],axis=1)     #刪除列 
# print("刪除列",df14)
# 刪除行   name   age
# 1   小王   NaN
# 2   小羅  20.0
# 3   小張  31.0
# 4   小李  33.0
# 5   小劉  22.0

# 7 遍歷DataFrame  #每一行的資料加上 列標題
# for index, row in df12.iterrows():
    # print("index:",index)
    # print("row:",row)
# row: name     小王
# sex       1
# age     NaN
# Name: 1, dtype: object
# row: name    小羅
# sex      1
# age     20
# Name: 2, dtype: object
# row: name    小張
# sex      1
# age     31
# Name: 3, dtype: object
# row: name    小李
# sex      0
# age     33
# Name: 4, dtype: object
# row: name    小劉
# sex      0
# age     22
# Name: 5, dtype: object

# 8 檢視相關 維度 型別 值 單值

# print("檢視維度：",df12.shape)  #檢視維度： (5, 3)

# print("檢視型別：",df12.dtypes)
        # 檢視型別： name     object
        # sex       int64
        # age     float64
        # dtype: object

# print("檢視值：",df12.values)
# 檢視值： [['小王' 1 nan]
#  ['小羅' 1 20.0]
#  ['小張' 1 31.0]
#  ['小李' 0 33.0]
#  ['小劉' 0 22.0]]

# print("檢視單值：",df12["sex"][3])   # 檢視單值： 1

# print(df12.head(2)) #顯示頭部2行，但是預設是5行
#   name  sex   age
# 1   小王    1   NaN
# 2   小羅    1  20.0

# print(df12.tail(3)) #顯示末尾3行，預設是5行
#   name  sex   age
# 3   小張    1  31.0
# 4   小李    0  33.0
# 5   小劉    0  22.0

# print(df12.info())  #相關資訊概況，行數，列數，列索引，列非空值個數，列型別，行型別,記憶體佔用
# <class 'pandas.core.frame.DataFrame'>
# Int64Index: 5 entries, 1 to 5
# Data columns (total 3 columns):
# name    5 non-null object
# sex     5 non-null int64
# age     4 non-null float64
# dtypes: float64(1), int64(1), object(1)
# memory usage: 320.0+ bytes
# None

# print(df12.describe()) #快速綜合統計結果，計數，均值，標準差，最大值，四分位數，最小值
#             sex        age
# count  5.000000   4.000000
# mean   0.600000  26.500000   #？？？？
# std    0.547723   6.454972   #？？？？
# min    0.000000  20.000000
# 25%    0.000000  21.500000
# 50%    1.000000  26.500000
# 75%    1.000000  31.500000
# max    1.000000  33.000000

# 四 索引查詢 ********************

# 用於連續或不連續（行列有間隔）行列區塊查詢
# 解決了DataFrame 進行行標籤查詢的問題
# 兩種查詢方式：
    # df.loc[行，列] 標籤索引 自定義索引
    # df.iloc[行，列] 位置索引，預設索引

# 引數書寫順序都是先行後列

dic5 = {
    "name":pd.Series(["小王","小羅","小張","小李","小劉"],
                     index=[1,2,3,4,5]),
    "sex":pd.Series([1,1,1,0,0], index=[1,2,3,4,5]),
    "age":pd.Series([20,31,33,22],index=[2,3,4,5])
}
df15 = pd.DataFrame(dic5)

# 1 查詢單行 df.loc[標籤索引] ()
# print("標籤單行索引",df15.loc[3])
# 標籤單行索引 name    小張
# sex      1
# age     31
# Name: 3, dtype: object

# df15.iloc[位置索引]

# print("位置索引單行",df15.iloc[3])#索引第四個值 
# 位置索引單行 name    小李
# sex      0
# age     33
# Name: 4, dtype: object

# 2 查詢單列 前面機上冒號 
# df.loc[:,"列名"] #標籤索引 
# df.iloc[:,索引數字] #位置索引

# print("標籤索引單列name",df15.loc[:,"name"])
# 標籤索引單列name 1    小王
# 2    小羅
# 3    小張
# 4    小李
# 5    小劉
# Name: name, dtype: object

# print("位置索引單列name",df15.iloc[:,0])
# 位置索引單列name 1    小王
# 2    小羅
# 3    小張
# 4    小李
# 5    小劉
# Name: name, dtype: object

# 3查詢多行，雙中括號
# print(df15.loc[[2,5]]) #讀取第二行 和第五行
#   name  sex   age
# 2   小羅    1  20.0
# 5   小劉    0  22.0

# print(df15.iloc[[2,4]]) #讀取索引為2 和索引為4 對應的資料
# 3   小張    1  31.0
# 5   小劉    0  22.0

# 4 查詢多列
# print(df15.loc[:,["name","age"]]) #標籤索引
#   name   age
# 1   小王   NaN
# 2   小羅  20.0
# 3   小張  31.0
# 4   小李  33.0
# 5   小劉  22.0

# print(df15.iloc[:,[0,2]])  #位置索引
#   name   age
# 1   小王   NaN
# 2   小羅  20.0
# 3   小張  31.0
# 4   小李  33.0
# 5   小劉  22.0

# 5 查詢單個單元格方法  [行，列]
# print(df15.loc[1,"name"]) #標籤索引 第一行 name列
# 小王
# print(df15.at[1,"name"])  #標籤索引 速度和效率會更高at 用法
# 小王
# 以下是位置索引
# print(df15.iloc[0,0])# 位置索引
# 小王


# 6 查詢多個單元格

# 6-1 均是標籤索引 就是寫上標籤的名字即可
# 一行多列Seires
# print(df15.loc[1,["name","sex"]]) # 標籤索引
# name    小王
# sex      1
# Name: 1, dtype: object

# 多行一列
# print(df15.loc[[1,4],"sex"])#第一行和第四行 的sex 列
# 1    1
# 4    0
# Name: sex, dtype: int64

# 多行多列
# print(df15.loc[[1,3],["sex","age"]]) #標籤索引
#    sex   age
# 1    1   NaN
# 3    1  31.0


# 6-2 查詢多表格 是位置索引或是標籤索引 

# print(df15.iloc[0,[0,2]]) #第一行第一個資料 和一行和第3個數據
# name     小王
# age     NaN
# Name: 1, dtype: object

# print(df15.iloc[[0,1],2])  #第一行和第二行，和第三宗地的結合部分資料
# 1     NaN
# 2    20.0
# Name: age, dtype: float64

# print(df15.iloc[[0,1],[0,2]])  #多行多列資料 按照索引第一行第二行 對應第一 第三列資料
#   name   age
# 1   小王   NaN
# 2   小羅  20.0

# 五 切片查詢  ******************** 擷取行 （冒號）：在最後，擷取列 （冒號）：在最前 

# 用於連續行列區塊查詢
# 比索引查詢簡單方便，單不能查詢非連續行列區塊
# 單個或不連續行列區塊使用縮影查詢，連續行列區塊使用切片查詢

# 切片查詢的區間
# iloc 預設是位置索引是從左到右開區間（左包右不包）
# loc 自定義標籤索引是從左到右閉區間（左包右也包）
# 因為標籤索引不包含位置索引，使用時很難知道索引前後是什麼
dic5 = {
    "name":pd.Series(["小王","小羅","小張","小李","小劉"],
                     index=[1,2,3,4,5]),
    "sex":pd.Series([1,1,1,0,0], index=[1,2,3,4,5]),
    "age":pd.Series([20,31,33,22],index=[2,3,4,5])
}
df16 = pd.DataFrame(dic5)
# print(df16)
#   name  sex   age
# 1   小王    1   NaN
# 2   小羅    1  20.0
# 3   小張    1  31.0
# 4   小李    0  33.0
# 5   小劉    0  22.0

# 1 選取一行
# print(df16.loc[2,:]) #標籤索引 讀取第二行
# print(df16.loc[2])

# print(df16.iloc[1,:])#位置索引 讀取第二行
# print(df16.iloc[1])

# name    小羅
# sex      1
# age     20
# Name: 2, dtype: object


# 2 選取一列
# print(df16.loc[:,"name"])  #標籤索引方式
# print(df16.iloc[:,0])   #位置索引方式

# 1    小王
# 2    小羅
# 3    小張
# 4    小李
# 5    小劉
# Name: name, dtype: object

# 3 切片選取連續多行  ？？？暫時有點不理解（自己理解是iloc 位置索引如果是3 包括前3個 0 1 2 ）
# print(df16.loc[:3:]) #左右全包從開始到3
# print(df16.iloc[:3,:])  #從開始的0 索引到2 共3個

#   name  sex   age

# 1   小王    1   NaN
# 2   小羅    1  20.0
# 3   小張    1  31.0


# 4 切片選取連續多列
# print(df16.loc[:,"sex":"age"]) #注意是個冒號 標籤名：標籤名
# print(df16.iloc[:,1:3]) #列索引：列索引

# 5 切片選取多行多列的聚合
# print(df16.loc[2:4,"sex":"age"])
# print(df16.iloc[1:4,1:3]) #此時的4 是索引4 並不是標籤4


# 六 過濾查詢  ********************

# 通過列布爾值過濾、篩選查詢 ，不通過索引而是通過值查詢
# 用於結果索引不確定的查詢
# 通過運算所得布林值對查詢結果進行過濾，
# 通過某列值過濾資料，返回布林值

# 1 選取年齡大於30的 一列資料
# print(df16["age"]>=30)
# print(df16.loc[:,"age"]>=30)#（列的標籤索引）age 這一列大於30
# 1    False
# 2    False
# 3     True
# 4     True
# 5    False
# Name: age, dtype: bool

# 2 布林值做 DataFrame 引數，返回DataFrame物件

# print(df16[df16["age"]>=30])
# print(df16[df16.loc[:,"age"]>=30])#
#   name  sex   age
# 3   小張    1  31.0
# 4   小李    0  33.0

# 3 布林索引和切片結合 資料框["列名標籤"]
# print(df16.loc[df16["age"]>30,"name":"age"]) #或者 name":])
#   name  sex   age
# 3   小張    1  31.0
# 4   小李    0  33.0

# 4 多重條件過濾，邏輯運算
# & 且的意思；
# | 或 的意思；
# - 非的意思（或者用！=  判斷）

# print((df16["age"] > 30) &(df16["sex"] == 1))
# print(df16[(df16["age"] > 30) &(df16["sex"] == 1)])
#   name  sex   age
# 3   小張    1  31.0

# 5 where 過濾
# 5-1方式1 過濾 方法 通過布林值判斷過濾 去除NaN 的值
df17 = df16[["name","sex","age"]] #多列資料必須多箇中括號
# print(df17)
dfbool = df17>=1  #返回DataFrame 型別的布林值
# print(dfbool)  #返回DataFrame 型別的布林值
#    name    sex    age
# 1  True   True  False
# 2  True   True   True
# 3  True   True   True
# 4  True  False   True
# 5  True  False   True
dNan = df17[dfbool] #當引數傳來進來
# print(dNan)
#   name  sex   age
# 1   小王  1.0   NaN
# 2   小羅  1.0  20.0
# 3   小張  1.0  31.0
# 4   小李  NaN  33.0
# 5   小劉  NaN  22.0

# 去掉含有缺失值的行
filter_NaN= dNan.dropna(how="any")
# print(filter_NaN)
#   name  sex   age
# 2   小羅  1.0  20.0
# 3   小張  1.0  31.0

# 5-2 方式2  過濾方法還可以通過isin() 函式過濾取資料
NaN_bool = df16["sex"].isin([1]) #這個1是性別的識別符號
# print(filter_bool)
# 1     True
# 2     True
# 3     True
# 4    False
# 5    False
# Name: sex, dtype: bool

df18= df16[NaN_bool]
# print(df18)
#   name  sex   age
# 1   小王    1   NaN
# 2   小羅    1  20.0
# 3   小張    1  31.0
# 通過布林值判斷過濾 去除NaN 的值
filter_NaN1 = df18.dropna(how="any")
# print("去除NaN的資料",filter_NaN)
# 去除NaN的資料   name  sex   age
# 2   小羅  1.0  20.0
# 3   小張  1.0  31.0

# 七 修改 update  ********************

# 凡是通過查詢得到的值，直接賦值就可修改；
# 檢視和副本：通過索引和切片返回的資料是原資料的檢視，不是副本，任何對檢視的修改全部會反應到源資料上，
# 想獨立修改資料可以通過copy() 複製源資料的副本
# 類 list/ndarry 查詢方式修改

# 1 增加或修改一列的資料
_df16 = df16.copy()
# _df16["heigh"] = [150,160,170,180,190] #增加了一列 heigh
# print(_df16)
#   name  sex   age  heigh
# 1   小王    1   NaN    150
# 2   小羅    1  20.0    160
# 3   小張    1  31.0    170
# 4   小李    0  33.0    180
# 5   小劉    0  22.0    190

_df16["heigh"]=170 #全變成170
# print(_df16)
#   name  sex   age  heigh
# 1   小王    1   NaN    170
# 2   小羅    1  20.0    170
# 3   小張    1  31.0    170
# 4   小李    0  33.0    170
# 5   小劉    0  22.0    170

# 2索引或切片查詢方式修改
df19 = df16.loc[[1,3,5],["name","age"]] #標籤索引 三行 兩列 檢視資料
# print(df19)
#   name    age
# 1   小王   NaN
# 3   小張   31.0
# 5   小劉    22.0

2-1 修改整個三行 2列的資料，注意不能有兩個等號 不能再賦值變數

df16.loc[[1,3,5],["name","age"]]=[["wang",11],["zhang",22],["liu",33]] #1  3  5 三行，name age 兩列
# _df19 = df16.loc[[1,3],["name","age"]]=[["wang",11],["zhang",22],["liu",33]] # 這樣的話維度不夠三行的資料 只有2行
# print(df16)  #???????????????????????????應該不是一下這種型別 個人以為
#     name  sex   age
# 1   wang    1  11.0
# 2     小羅    1  20.0
# 3  zhang    1  22.0
# 4     小李    0  33.0
# 5    liu    0  33.0

# 3 通過where 過濾修改
df20 = df16[df16>=1]
# print("s",df20)
# s   name  sex   age
# 1   小王  1.0   NaN
# 2   小羅  1.0  20.0
# 3   小張  1.0  31.0
# 4   小李  NaN  33.0
# 5   小劉  NaN  22.0
# df21 = df16[df16>=1] = 2  #不能再混合資料勒種中修改非NaN 值
# print(df21) 報錯 了

# 4 提取唯一資料型別資料（拷貝一下）

df16_2  = df16.loc[:,["name","age"]] #擷取2列資料
df16_cp = df16_2.copy()
# print("df16_2",df16_2)

# df16_2   name   age
# 1   小王   NaN
# 2   小羅  20.0
# 3   小張  31.0
# 4   小李  33.0
# 5   小劉  22.0

# print(df16_2>25)
#    name    age
# 1  True  False
# 2  True  False
# 3  True   True
# 4  True   True
# 5  True  False

# print(df16_2[df16_2>25])
#   name   age
# 1   小王   NaN
# 2   小羅   NaN
# 3   小張  31.0
# 4   小李  33.0
# 5   小劉   NaN
# ？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？
# df16_2[df16_2>25] = 88
# print(df16_2)  #報錯  TypeError：不能在非np類混合型別上進行布林設定。nan值


# 八刪除 Delete   ********************

s6 = pd.Series(["wang","luo"],index=[2,3])
# print(s6)
# 2    wang
# 3     luo
# dtype: object

# 1 Series 物件的刪除

s7 = s6.drop(2)  #刪除一行
# print(s7)
# 3    luo
# dtype: object

s8 = s6.drop([2,3])  ## 刪除多行
# print(s8)
# Series([], dtype: object)

df21 = pd.DataFrame({"name":["wang","luo","zang"],"sex":[1,0,1],"age":[11,22,33]})
# print(df21)
#    name  sex  age
# 0  wang    1   11
# 1   luo    0   22
# 2  zang    1   33

# 2 DataFrame 物件刪除

# 2-1 刪除單行和多行
# 預設是刪除行，預設只改動檢視

# df22 = df21.drop(0)  #刪除單行
# print(df22)
#    name  sex  age
# 1   luo    0   22
# 2  zang    1   33

# df23 = df21.drop([0,2]) #刪除多行
# print(df23)
#   name  sex  age
# 1  luo    0   22

# 2-2 刪除單列或者多列

# axis=1 刪除列，預設axis=0刪除行
# print(df21.drop("name",axis=1))   #s刪除單列
#    sex  age
# 0    1   11
# 1    0   22
# 2    1   33

# print(df21.drop(["age","sex"],axis=1))  #刪除多列
#    name
# 0  wang
# 1   luo
# 2  zang

# 2-3 inplace=True,改動原資料，預設 inplace=False,只改動檢視?????????
# print(df21.drop(["age","sex"],axis=1,inplace=False)) #設定為True 結果為None
#    name
# 0  wang
# 1   luo
# 2  zang

# 2-4 DataFrame 物件的索引命名

df21.index.name = "row"
df21.columns.name = "col"
# print(df21)
# col  name  sex  age
# row
# 0    wang    1   11
# 1     luo    0   22
# 2    zang    1   33

18-09-26 pandas 基礎學習01

# 一資料結構介紹********************# 在pandas 中有兩類非常重要的資料結構，1序列Series 和2 資料框DataFrame,# Series 類似於numpy 中的一維資料，除了通吃一維陣列可用的函式和方法，而且其可通過#索引標籤的方式獲取資料，還具有索引的自動對齊功能；

18-09-21 numpy 的基礎學習01

# 1關於numpy 的學習import numpy as np# 一如何建立陣列****# 1 有規律的一維資料的建立======# 1 range() 和arange() 區別貌似沒有區別lst1 = range(10)lst1 = list(lst1)# print(lst1,type(lst1)

Pandas基礎學習與Spark Python初探

入學 init sparkconf sch 時間 com inux mas 取數摘要：pandas是一個強大的Python數據分析工具包，pandas的兩個主要數據結構Series（一維）和DataFrame（二維）處理了金融，統計，社會中的絕大多數典型用例科學，以及許多

零基礎學習01（數據類型）

而是空間 bubuko 使用 () 哪些 bsp div rip 一.上篇遺留及習題 1.下面請看我們來輸入一下結果為什麽會是這樣呢？b不是等於a嗎，為什麽不是5而是3. 2.習題解答（1.）區分下面哪些是變量

關於pandas 專項學習01

一 Pandas 理論基礎 1 Pandas庫是利用python進行資料分析時最為重要的一個庫，前面介紹的Numpy庫主要是為資料分析提供科學計算方面的數學運算函式等，而Pandas庫則是對所需分析資料進行整理以便友好地展現給資料分析人員，從而更好的使用Numpy來進行數學統計處理。在邏輯順

Java基礎學習01——Map遍歷Map.Entry

問題描述前些天遇到了一個疑問，今天終於驗證了一下，現在記錄下來。問題是這樣的，大家遍歷Map的時候用Map.Entry，通過Map.Entry獲取到key和value，與存入Map當中的key和value是同一個物件嗎？為了驗證一下這個問題我寫了如下程式碼： public st

golang基礎學習01切片陣列

//宣告切片陣列，下標從n開始到m-1結束個元素為切片的陣列。（前閉後開） //預設m則從n開始直到最後一個元素 //預設n時將表示從陣列的第一個元素開始 //[:]表示全部內容都是切片,[1:1]則沒有任何值 package main import "fmt" func main

spring基礎學習01

spring基礎 Spring是一個開放原始碼的設計層面框架，他解決的是業務邏輯層和其他各層的鬆耦合問題，因此它將面向介面的程式設計思想貫穿整個系統應用 IOC控制反轉把建立物件和維護物件之間的關係權利轉交給spring管理，spring容器控制物件的建立，注入需要注入的物件 aop面向切面程式設計

java基礎學習——26、GUI

isp 把手用戶 code tool font run 簡單的 nbsp GUI(Graphical User Interface)提供了圖形化的界面，允許用戶以圖形的方式與系統進行互動。在GUI推廣之前，用戶通常要以文本命令的方式來控制計算機。GUI直觀的將計算機的功能

每天學習點--------第四天（2017-09-26）摘要: 常用的字符串方法閱讀全文

.cn cnblogs img src log nbsp png image http 每天學習點--------第四天（2017-09-26）摘要: 常用的字符串方法閱讀全文

java並發工具學習 01 進程與線程基礎

ava 多處理器科技進程通訊存在空間會有過時主線程在並發程序設計中，有兩個基本的單位：進程和線程。並發程序設計主要是針對線程而言，當然，進程也是非常重要的。操作系統包含很多進程與線程。即使在單核系統中(systems that only have a sin

01月18日【Python3 基礎知識】

python1.1 Python的安裝1.2 pycharm安裝1.3 pycharm快捷鍵1.4 pycharm其他設置 1.1 Python的安裝 Python的重要性 python 流行程度近幾年內已經擠進前五名,慢慢已經成為一個開發者或運維必須掌握的一門語言隨著現在運維自動化,雲計算,虛擬化,機

python3基礎學習筆記（基礎知識）-01

body 基礎語弱類型弱類型語言 class lean 邏輯表達式列表浮點型 python的基礎學習：　　數據類型：python是弱類型語言，在定義變量的時候，可以不直接制定數據類型。　　　　　　1、Numbers：　　　　　　　　　　　　int 有符號整型

Python之面向對象-基礎語法學習-01

class 字符集一個 log HA 郵箱地址 python解釋器面向對象 on() #!/usr/bin/evn python ###指定運行python解釋器(Linux系統) # -*- coding:utf8 -*-

第1階段基礎課程-01 VMWareWorkstation虛擬機使用教程-IT基礎架構運維系統學習

架構企業對象下載映射快照 it基礎試驗 aid 第1階段基礎課程-01 VMWareWorkstation虛擬機使用教程適合對象學習系統和網絡IT課程，需要你能夠在物理機上搭建企業網絡和服務器學習和試驗環境，虛擬機的熟練使用是必不可少的基礎IT技能。課程

Java學習-----01.Java基礎

while循環循環語句結構規則 nbsp 算術運算數據標識條件語句變量：　　變量的聲明和賦值；　　java常用數據類型；　　數據類型的使用；　　標識符的命名規則；賦值運算符：算術運算符：　　運算符優先級；　　三目運算符；類型轉換：　　自動類型轉換；　　類型提

2018/09/26 LINUX安裝及linux命令之ls命令學習

當前目錄選項數組參數 soc 查看命令 ont 實驗第一部分： LINUX系統安裝（選擇了ubuntu系統）工具包：Vmware + Ubuntu ①從vmware官網下載相應虛擬機安裝包。 ②從ubuntu官網下載相應的虛擬鏡像安裝包。 ③先安裝vmwar

18-09-20 關於Xlwings讀寫基礎1

一利用xlwings 讀取Excel 的讀取修改資料 import xlwings as xw""" # 1. 讀一個已存在的Excel檔案：利用xlwings 讀取Excel中的一個單元格並且修改 app=xw.App(visible=False,add_book=False)app.display_a

python學習筆記01-python基礎學習

1. 輸入和輸出 #!/usr/bin/env python name = raw_input('please enter your name:') print 'hello,',name 2. 資料型別和變數十進位制：100 十六進位制：0xff00 浮點數：3

2018-11-09 H5基礎學習筆記

第一次學習大概跟著課程瞭解了一些基礎的H5的特性以及整體的基本知識。具體程式碼和筆記如下：  <!DOCTYPE html> <html lang="en"> <head> <meta ch

18-09-26 pandas 基礎學習01

相關推薦