Python資料分析-Pandas（Series與DataFrame）

阿新 • • 發佈：2018-12-06

Pandas介紹：

　　pandas是一個強大的Python資料分析的工具包，是基於NumPy構建的。

Pandas的主要功能：
　　1)具備對其功能的資料結構DataFrame、Series
　　2)整合時間序列功能
　　3)提供豐富的數學運算和操作
　　4)靈活處理缺失資料

pyhton裡面安裝、引入方式：
　　安裝方法：pip install pandas
　　引用方法：import pandas as pd

pands的陣列的建立：

建立空的的值

import pandas as pd
s = pd.Series()
print(s)  #Series([], dtype: float64)

傳入一個列表

data=['a','b','c','d']
res=pd.Series(data)
print(res)

'''結果
0    a
1    b
2    c
3    d
這裡沒有傳遞任何索引，因此預設情況下，它分配了從0到len(data)-1的索引，即：0到3
'''

傳一個字典

data = {'a' : 0, 'b' : 1, 'c' : 2}
s = pd.Series(data)
print(s)
'''結果
a    0
b    1
c    2
dtype: int64

注意 - 字典鍵用於構建索引。

'''

從標量建立索引：

如果資料是標量值，則必須提供索引。將按照索引重複該值進行匹配

res=pd.Series(0, index=['a','b','c','d'])
print(res)

'''結果
a    0
b    0
c    0
d    0

'''

自指定索引值：

res=pd.Series(['a','b','c','d'],index=['a_index','b_index','c_index','d_index'])
print(res)

'''結果
a_index    a
b_index    b
c_index    c
d_index    d

 
'''

從具有位置的系列中訪問資料（取值）：

重點理解：陣列是從零開始計數的，第一個位置儲存再零位置)

檢視index 、 values的值：

#檢視陣列的index值
print(res.index)

#檢視陣列的value值
print(res.values)


#取值（根據預設第零位開始取）
print(res[0])  #a

取前三個值（不包括定義的最後一個數值）

res=pd.Series(['a','b','c','d'],index=['a_index','b_index','c_index','d_index'])

#取前三個值（不包括3）
print(res[:3]) #是個物件可以 res[:3].values
'''結果

　　a_index a
　　b_index b
　　c_index c
　　dtype: object

'''

取後三個值：

print(res[-3:])

'''結果
b_index    b
c_index    c
d_index    d
dtype: object

'''

使用索引標籤檢索資料並設定資料：

修改value值

res=pd.Series(['a','b','c','d'],index=['a_index','b_index','c_index','d_index'])
print(res)
res['a_index']='new_a'
print(res)

'''結果

a_index    new_a
b_index        b
c_index        c
d_index        d

'''

copy複製資料並修改

sr1=pd.Series([12,13,14],index=['c','a','d'])
sr2=pd.Series([14,15,16],index=['d','c','a'])

#可以使用copy賦值陣列再修改
sr3=sr1[1:].copy()
print(sr3)

sr3[0]=1888
print(sr3)

'''
a    13
d    14
dtype: int64

a    1888
d      14
dtype: int64
'''

運算：

初始構建2個數組

sr1=pd.Series([12,13,14],index=['c','a','d'])

sr2=pd.Series([14,15,16],index=['d','c','a'])

print(sr1+sr2)
'''結果
a    29
c    27
d    28


'''

求和運算

Pandas自動對齊功能，如果自定義了索引就會找原來索引，如果沒有值就為NaN

sr1=pd.Series([12,13,14],index=['c','a','d'])
sr3=pd.Series([11,20,10,14], index=['d','c','a','b'])
print(sr3)
#求sr1+sr3和值
print(sr1+sr3)
'''結果

a    23.0
b     NaN  #一位sr1中沒有索引b，所以顯示空
c    32.0
d    25.0

Pandas自動對齊功能，如果自定義了索引就會找原來索引，如果沒有值就為NaN

'''

NaN缺失資料的操作：

#先構建一個缺失資料
sr1=pd.Series([12,13,14],index=['c','a','d'])
sr2=pd.Series([14,15,16],index=['d','c','a'])

sr3=pd.Series([11,20,10,14], index=['d','c','a','b'])

#合併生成一個缺失資料
sr4=sr1+sr3
print(sr4)

'''結果

a    23.0
b     NaN
c    32.0
d    25.0
dtype: float64

'''

isnull，返回布林陣列，缺失值對應True

#isnull，返回布林陣列，缺失值對應True
res=pd.isnull(sr4)
print(res)

'''結果
a    False
b     True
c    False
d    False

'''

notnull,返回布林陣列，缺失值對應為False

#notnull,返回布林陣列，缺失值對應為False
res=pd.notnull(sr4)
print(res)
'''結果
a     True
b    False
c     True
d     True
dtype: bool

'''

dropna,過濾掉有NaN的行

#dropna,過濾掉有NaN的行
res=pd.Series.dropna(sr4)
print(res)

'''
a    23.0
c    32.0
d    25.0
dtype: float64

'''

fillna,填充缺失的資料

#fillna,填充NaN缺失的資料
res=sr4.fillna('這是給NaN做填充的資料')
print(res)

'''資料結構
a              23
b    這是給NaN做填充的資料
c              32
d              25
dtype: object

'''

DataFrame分析，待完善。。

Python資料分析-Pandas（Series與DataFrame）

Pandas介紹：　　pandas是一個強大的Python資料分析的工具包，是基於NumPy構建的。 Pandas的主要功能：　　1)具備對其功能的資料結構DataFrame、Series 　　2)整合時間序列功能　　3)提供豐富的數學運算和操作　　4)靈活處理缺失資料 pyhton裡面安裝、引

python pandas中series與dataframe資料型別屬性及操作基礎

一）屬性 series ：.index,.values, .name,.index.name dataframe ：.columns, .index,.values 二）建立方法 ser

python資料分析pandas包入門學習（三）彙總和統計描述

本文參考《利用Python進行資料分析》的第五章 pandas入門 pandas擁有一組常用的數學和統計方法。它們大部分屬於約簡和彙總統計，用於從Series中提取單個值（如sum和mean），或從DataFrame的行或列中提取一個Series。跟對應的Numpy陣列

python資料分析pandas包入門學習（四）處理缺失資料

本文參考《利用Python進行資料分析》的第五章 pandas入門 4 處理缺失資料缺失資料（missing data）在大部分資料分析應用中都很常見。Pandas的設計目標之一就是讓缺失資料的處理任務儘量輕鬆。例如，pandas物件上的所有描述統計都排除了缺失資料

python資料分析pandas包入門學習（二）基本功能

本文參考《利用Python進行資料分析》的第五章 pandas入門 2基本功能介紹操作Series和DataFrame中的資料的基本手段。重新索引reindex 當呼叫Series的reindex將會根據新索引進行重排；當某個索引值當前不存在，就引入缺失值；fill_

python資料分析之（3）pandas

pandas的安裝可以參見前面的博文，http://blog.csdn.net/piaoxuezhong/article/details/54023951pandas 是基於 Numpy 構建的含有更

Python資料分析--Pandas知識點(二)

13. 簡單計算新建一個數據表df 1 import pandas as pd 2 3 df = pd.DataFrame({"地區": ["A區","B區", "C區"], 4 "前半年銷量": [3500, 4500,3800], 5

python資料分析基礎之圖與圖表——多圖並列

#_author:"zhengly" #date:2018/8/30 ''' 除了使用matplotlib建立標準統計圖，還可以使用panda來建立其他型別的統計圖本例實現：利用panda建立一個條形

Python資料分析Pandas庫之熊貓(10分鐘二)

pandas 10分鐘教程(二) 重點發法分組 groupby('列名') groupby(['列名1','列名2',.........]) 分組的步驟 (Splitting) 按照一些規則將資料分為不同的組,拆分 (Applying) 對於每組資料分別

Python-資料分析-Pandas統計分析基礎2

前些日子一直在忙實驗，結束後又去忙其他事情，看完了Pandas一直沒有時間寫筆記，今天忙裡偷閒再寫一篇Pandas DataFrame是最常用的Pandas物件，類似於Microsoft Office Excel表格，完成資料讀取後，DataFrame資

Python資料分析基礎（二）——NumPy基礎

NumPy最重要的特點就是其N維陣列物件（即ndarray），該物件是一個快速而靈活的大資料集容器。陣列建立函式函式說明 array 將輸入資料（列表、元組、陣列或其他序列型別）轉換為ndarray。 asarray 將輸入轉換為ndarray ara

python資料分析基礎之圖與圖表——折線圖

#_author:"zhengly" #date:2018/8/30 ''' 折線圖 ''' from numpy.random import randn import matplotlib.pyplo

python資料分析基礎之圖與圖表——箱線圖

#_author:"zhengly" #date:2018/8/30 ''' 箱線圖 ''' import numpy as np import matplotlib.pyplot as plt plt

python資料分析基礎之圖與圖表——直方圖

#_author:"zhengly" #date:2018/8/30 ''' 直方圖 ''' import numpy as np import matplotlib.pyplot as plt plt

Python資料分析入門（一）——初探資料視覺化

前言靜下心算算，當程式設計師已經有好幾年了，不過自大學時代開始，學習對我來說就是個被動接受的過程，學校的課程、當時熱門的移動端開發、資料庫的學習、web學習、PHP後端學習……需要做什麼我便去學什麼，到了今天，突然意識到我是不是該給自己一個明確的發展方向了，畢竟歲月不饒人

Python資料分析基礎（八）——時間序列

時間序列資料是一種重要的結構化資料形式。 datetime模組中的資料型別型別說明 date 以公曆形式儲存日曆日期（年、月、日） time 將時間儲存為時、分、秒、毫秒 datetime 儲存日期和時間 timedelta 表示兩個datetim

Python_pandas 兩種主要的資料型別（Series、DataFrame）

因為是數學專業，最開始深入學習的是MATLAB（下面簡稱M），感受最深的就是M的簡單高效，高精度，不管什麼東西，統統放到陣列（或者說矩陣）裡面，天哪嚕，不可思議，和C語言、C++相比，這玩意就是個天生的資料實驗室利器。後來用M做了個GUI，在編譯成C風格的exe時花了大心

Python資料科學手冊（高清版）PDF

Python資料科學手冊（高清版）PDF百度網盤連結：https://pan.baidu.com/s/1KurSdjNWiwMac3o3iLrzBg 提取碼：qogy 複製這段內容後開啟百度網盤手機App，操作更方便哦內容簡介 · · · · · · 本書是對以資料深度需求為中心的科學、研究以及針對計算和統計

python學習筆記9（字典與集合）

字典與集合字典定義: 使用鍵-值(key-value)儲存，具有極快的查詢速度注意：字典是無序的 key的特性： 1、字典中的key必須唯一 2、key必須是不可變物件 3、字串、整數等都是不可變的，可以作為key 4、list是可變的，不能作為key 思考：儲存多位學

【A-003】python資料分析與機器學習實戰 Python科學計算庫 Pandas資料分析處理庫（四）DataFrame資料結構

pandas資料結構：DataFrame 引入：在上一節中已經介紹過了Series物件，Series物件可以理解為由一列索引和一列值，共兩列資料組成的結構。而DataFrame就是由一列索引和多列值組成的結構，其中，在DataFrame中的每一列都是一個S

Python資料分析-Pandas（Series與DataFrame）

相關推薦