【Python學習筆記】Pandas庫之DataFrame

阿新 • • 發佈：2019-01-22

數字 .sh image sum() 新增選擇輸出上線工作區

1 簡介

DataFrame是Python中Pandas庫中的一種數據結構，它類似excel，是一種二維表。

或許說它可能有點像matlab的矩陣，但是matlab的矩陣只能放數值型值（當然matlab也可以用cell存放多類型數據），DataFrame的單元格可以存放數值、字符串等，這和excel表很像。

同時DataFrame可以設置列名columns與行名index，可以通過像matlab一樣通過位置獲取數據也可以通過列名和行名定位，具體方法在後面細說。

2 創建DataFrame

首先聲明一下，以下都是使用的Python 3.6.5版本為例，Python2應該也差不多吧（大概

在所有操作之前當然要先import必要的pandas庫，因為pandas常與numpy一起配合使用，所以也一起import吧。

import pandas as pd
import numpy as np

如果還沒安裝直接在cmd裏pip安裝吧，如果有版本選擇問題，參看之前的帖子。

pip install pandas
pip install numpy

2.1 直接創建

可以直接使用pandas的DataFrame函數創建，比如接下來我們隨機創建一個4*4的DataFrame。

df1=pd.DataFrame(np.random.randn(4,4),index=list(‘ABCD‘),columns=list(‘ABCD‘))

其中第一個參數是存放在DataFrame裏的數據，第二個參數index就是之前說的行名（或者應該叫索引？），第三個參數columns是之前說的列名。

後兩個參數可以使用list輸入，但是註意，這個list的長度要和DataFrame的大小匹配，不然會報錯。當然，這兩個參數是可選的，你可以選擇不設置。

而且發現，這兩個list是可以一樣的，但是每行每列的名字在index或columns裏要是唯一的。

使用python自己的shell展示創建的結果是這樣的：

技術分享圖片

或者在jupyter裏面更酷點的樣子，接下來都使用jupyter輸出展示吧。

技術分享圖片

當然，如果你的數據量賊小，也可以自己輸入創建，類似這樣。

df2=pd.DataFrame([[1,2,3,4],[2,3,4,5],
                  [3,4,5,6]，[4,5,6,7]],
                 index=list(‘ABCD‘),columns=list(‘ABCD‘))

這樣也可以得到這樣子的DataFrame：

技術分享圖片

2.2 使用字典創建

仍然是使用DataFrame這個函數，但是字典的每個key的value代表一列，而key是這一列的列名。比如這樣。

dic1={‘name‘:[‘小明‘,‘小紅‘,‘狗蛋‘,‘鐵柱‘],‘age‘:[17,20,5,40],‘gender‘:[‘男‘,‘女‘,‘女‘,‘男‘]}
df3=pd.DataFrame(dic1)

輸出結果是這樣的

技術分享圖片

3 查看與篩選數據

python沒有matlab的工作區直接查看變量與內容，這大概是python科學計算的一個缺點。所以需要格外的代碼來查看，最基本的直接寫變量名與print就不說了。

3.1 查看列的數據類型

使用dtypes方法可以查看各列的數據類型，比如說剛剛的df3。

df3.dtypes

輸出的結果是這樣：

技術分享圖片

3.2 查看DataFrame的頭尾

使用head可以查看前幾行的數據，默認的是前5行，不過也可以自己設置。

使用tail可以查看後幾行的數據，默認也是5行，參數可以自己設置。

比如隨意設置一個6*6的數據，只看前5行。

df4=pd.DataFrame(np.random.randn(6,6))
df4.head()

技術分享圖片

比如只看前3行。

df4.head(3)

技術分享圖片

比如看後5行。

df4.tail()

技術分享圖片

比如只看後2行。

df4.tail(2)

技術分享圖片

3.3 查看行名與列名

使用index查看行名，columns查看列名。具體由例子感受吧。

查看行名。

df1.index

技術分享圖片

查看列名。

df3.columns

技術分享圖片

3.4 查看數據值

使用values可以查看DataFrame裏的數據值，返回的是一個數組。

比如說查看所有的數據值。

df3.values

技術分享圖片

比如說查看某一列所有的數據值。

df3[‘name‘].values

技術分享圖片

還有另一種操作，使用loc或者iloc查看數據值（但是好像只能根據行來查看？）。區別是loc是根據行名，iloc是根據數字索引（也就是行號）。

比如說這樣。

df1.loc[‘A‘]

技術分享圖片

或者這樣。

df1.iloc[0]

技術分享圖片

按列進行索引查看數據還能直接使用列名，但這種方法對行索引不適用。

df3[‘name‘]

技術分享圖片

3.5 查看行列數

使用shape查看行列數，參數為0表示查看行數，參數為1表示查看列數。

df3.shape[0]

技術分享圖片

df3.shape[1]

技術分享圖片

4 基本操作

DataFrame有些方法可以直接進行數據統計，矩陣計算之類的基本操作。

4.1 轉置

直接字母T，線性代數上線。

比如說把之前的df2轉置一下。

df3.T

技術分享圖片

4.2 描述性統計

使用describe可以對數據根據列進行描述性統計。

比如說對df1進行描述性統計。

df1.describe()

技術分享圖片

如果有的列是非數值型的，那麽就不會進行統計。

如果想對行進行描述性統計，請參看4.1（轉置後進行describe呀！）

4.3 計算

使用sum默認對每列求和，sum(1)為對每行求和。比如

df3.sum()

技術分享圖片

可以發現就算元素是字符串，使用sum也會加起來。

df3.sum(1)

技術分享圖片

而一行中，有字符串有數值則只計算數值。

數乘運算使用apply，比如。

df2.apply(lambda x:x*2)

技術分享圖片

如果元素是字符串，則會把字符串再重復一遍。

乘方運算跟matlab類似，直接使用兩個*，比如。

df2**2

技術分享圖片

乘方運算如果有元素是字符串的話，就會報錯。

4.4 新增

擴充列可以直接像字典一樣，列名對應一個list，但是註意list的長度要跟index的長度一致。

df2[‘E‘]=[‘999‘,‘999‘,‘999‘,‘999‘]
df2

技術分享圖片

還可以使用insert，使用這個方法可以指定把列插入到第幾列，其他的列順延。

df2.insert(0,‘F‘,[888,888,888,888])
df2

技術分享圖片

4.5 合並

使用join可以將兩個DataFrame合並，但只根據行列名合並，並且以作用的那個DataFrame的為基準。如下所示，新的df7是以df2的行號index為基準的。

df6=pd.DataFrame([‘my‘,‘name‘,‘is‘,‘a‘],index=list(‘ACDH‘),columns=list(‘G‘))
df6
df7=df2.join(df6)
df7

技術分享圖片

但是，join這個方法還有how這個參數可以設置，合並兩個DataFrame的交集或並集。參數為‘inner‘表示交集，‘outer‘表示並集。

df8=df2.join(df6,how=‘inner‘)
df8
df9=df2.join(df6,how=‘outer‘)
df9

技術分享圖片

如果要合並多個Dataframe，可以用list把幾個Dataframe裝起來，然後使用concat轉化為一個新的Dataframe。

df10=pd.DataFrame([1,2,3,4],index=list(‘ABCD‘),columns=[‘a‘])
df11=pd.DataFrame([10,20,30,40],index=list(‘ABCD‘),columns=[‘b‘])
df12=pd.DataFrame([100,200,300,400],index=list(‘ABCD‘),columns=[‘c‘])
list1=[df10.T, df11.T, df12.T]
df13=pd.concat(list1)
df13

技術分享圖片

【Python學習筆記】Pandas庫之DataFrame

數字 .sh image sum() 新增選擇輸出上線工作區 1 簡介 DataFrame是Python中Pandas庫中的一種數據結構，它類似excel，是一種二維表。或許說它可能有點像matlab的矩陣，但是matlab的矩陣只能放數值型值（當然ma

【Python學習筆記】Coursera之PY4E學習筆記——File

color 學習筆記函數 read mod rom stephen 內容 filename 1、打開文件使用handle=open(filename,mode)打開文件。這一函數將會返回一個handle（應該翻譯為“柄”吧）用來操控文件，參數filename是一個字符串

【python學習筆記】41：認識Pandas中的資料變形

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。 Pandas資料變形關於stack()和unstack()見這裡和這裡。 import pandas as pd import numpy as np # 讀取杭州天氣檔案 df = pd.read

【python學習筆記】40：Pandas中DataFrame的分組/分割/合併

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。 DataFrame分組操作注意分組後得到的就是Series物件了，而不再是DataFrame物件。 import pandas as pd # 還是讀取這份檔案 df = pd.read_csv("

【python學習筆記】39：認識SQLAlchemy,簡單操作Pandas中的DataFrame

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。認識SQLAlchemy SQLAlchemy是Python的ORM工具，就像Java有Hibernate一樣，實現關係型資料庫中的記錄與Python自定義Class的物件的轉化，實現操作之間的對映。

【python學習筆記】43：Pandas時序資料處理

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。 Python中時間的一些常用操作 import time # 從格林威治時間到現在,單位秒 print('系統時間戳:', time.time()) print('本地時間按格式轉成str:', tim

【python學習筆記】42：Pandas資料缺失值/異常值/重複值處理

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。缺失值處理 Pandas資料物件中的缺失值表示為NaN。 import pandas as pd # 讀取杭州天氣檔案 df = pd.read_csv("E:/Data/practice/hz_we

【Python學習筆記】出現亂碼問題之解決方案彙總

【使用notepad++&cmd】 1.無法輸出中文： import urllib2 import cookielib url = "http://www.baidu.com" print "第一種方式" response1 = urllib2.urlopen(u

【Python學習筆記】-APP圖標顯示未讀消息數目

運行讀取 lin 簡單實現 ets fcm 筆記 python語言 lte 以小米手機系統為例，當安裝的某個APP有未讀消息時，就會在該APP圖標的右上角顯示未讀消息的數目。本文主要解說怎樣用Python語言實現圖標顯示未讀消息的數目。首先，還是要用到Python中P

【python學習筆記】6.抽象

位置參數 name 默認參數 [] 順序 fun append 聲明 value 【python學習筆記】6.抽象創建函數: 使用def語句定義函數，不用聲明參數類型，和返回值類型 def function_name(param1, param2):

【Python學習筆記】-冒泡排序、插入排序、二分法查找

判斷 tail fontsize watermark encoding middle 循環 itl 要求原文出處：https://blog.csdn.net/yort2016/article/details/68065728 冒泡排序主要是拿一個數與列表中所有的數進行比

【Python學習筆記】使用Python計算皮爾遜相關系數

自己 pre 求和相關學習筆記 python學習 tip urn pow 源代碼不記得是哪裏獲取的了，侵刪。此處博客僅作為自己筆記學習。 def multipl(a,b): sumofab=0.0 for i in range(len(a)):

【Python學習筆記】Coursera課程《Using Databases with Python》密歇根大學 Charles Severance——Week1 Object Oriented Python課堂筆記

multi rac python3 什麽什麽 req cmd ket ascii碼 charles Coursera課程《Using Databases with Python》密歇根大學 Charles Severance Week1 Object Oriented P

【Python學習筆記】有關包的基本知識

兩種學習 eee 我們模塊組成 learn 目錄 welcome python的包（package）是一個有層次的文件目錄結構。它定義了一個由模塊和子包組成的Python應用程序執行環境。 AAA/ __init__.py bbb.py CCC

【Python學習筆記】Coursera課程《Using Python to Access Web Data》密歇根大學 Charles Severance——Week6 JSON and the REST Architecture課堂筆記

學習 except for num string net none input 網上 Coursera課程《Using Python to Access Web Data》密歇根大學 Week6 JSON and the REST Architecture 13.5 Ja

【Python學習筆記】調整matplotlib的圖例legend的位置

有時預設的圖例位置不符合我們的需要，那麼我們可以使用下面的程式碼對legend位置進行調整。 plt.legend(loc='String or Number', bbox_to_anchor=(num1, num2)) 其中，第一個引數loc，設定它可以遵循以下的表格 Stri

【python學習筆記】切片方法

1、切片說明和簡單用法 python提供了一個切片功能，用這種方法可以很簡單的獲取列表或者元組等的某幾個元素，切片返回的結果的型別和被切片的是保持一致的；基本用法如下： >>> L = ['Michael', 'Sarah', 'Tracy', 'Bob', 'Ja

【python學習筆記】set集合

1、集合說明集合（set）是一個無序不重複元素的集。基本功能包括關係測試和消除重複元素。集合物件還支援 union(聯合)，intersection(交)，difference(差)和 sysmmetric difference(對稱差集)等數學運算。 2、建立一個集合大括號

【python學習筆記】python字典(dict)

1、字典dict的建立 Python內建了字典：dict的支援，dict全稱dictionary，在其他語言中也稱為map，使用鍵-值（key-value）儲存，具有極快的查詢速度。注意字典內各個部分是沒有順序的區別的；其java的map是一樣的，屬於key:value模式，一個簡單的

【Python學習筆記】python元組

python的元組(tuple)和列表(list)類似，是一個有序的列表，區別在於tuple是不能修改的，其初始化方式如下： >>> classmates = ('Michael', 'Bob', 'Tracy') 現在，classmates這個tuple不能變了

【Python學習筆記】Pandas庫之DataFrame

1 簡介

2 創建DataFrame

2.1 直接創建

2.2 使用字典創建

3 查看與篩選數據

3.1 查看列的數據類型

3.2 查看DataFrame的頭尾

3.3 查看行名與列名

3.4 查看數據值

3.5 查看行列數

4 基本操作

4.1 轉置

4.2 描述性統計

4.3 計算

4.4 新增

4.5 合並

相關推薦