Pandas 高級應用數據分析

阿新 • • 發佈：2018-06-02

range 標準數據 amp -c return taf 表達標準差

深入pandas 數據處理

三個階段

數據準備
數據轉化
數據聚合

數據準備

加載
組裝
合並 - pandas.merge()
拼接 - pandas.concat()
組合 - pandas.DataFrame.combine_first()
變形
刪除

合並

example1:

import numpy as np
import pandas as pd
frame1 = pd.DataFrame({'id':['ball','pencil','pen','mug','ashtray'],'price':[12.33,11.44,33.21,13.23,33.62]})
frame2 = pd.DataFrame({'id':['pencil','ball','pencil','pen'],'color':['white','red','red','black']})
pd.merge(frame1,frame2)

有必要定義合並操作的標準用 on 來指定

example2:

frame2.columns=[‘brand2‘,‘id2‘]

pd.merge(frame1,frame2,on=‘brand‘) # 需要重新明明

pd.merge(frame1,frame2,right_on=‘brand‘, left_on=‘sid‘)

拼接

concatenation

numpy 的 concatenate()函數就是做這種拼接操作

array1=np.arange(9).reshape((3,3))
array2=np.arange(9).reshape((3,3))+6
np=concatenate([array1,array2],axis= 
1)# axis=1 從行拼接 axis=0 從列拼接

pandas的concat()函數可以做拼接操作

ser1=pd.concat([ser1,ser2])
# axis=1 從行拼接 axis=0 從列拼接
# join='inner' or 'outer'

組合

Series對象： combine_first()

組合的同時還可以對齊數據

ser1=pd.Series(np.random.rand(5),index=[1,2,3,4,5])
ser2=pd.Series(np.random.rand(4),index=[2,4,5,6])
ser1.combine_first(ser2)

軸向旋轉

意思是需要按照行重新調整列或者反過來

兩個操作：

stacking 入棧，把列轉化為行
unstacking 出站，把行轉化為列

frame1=pd.DataFrame(np.arange(9).reshape(3,3),index=['w','b','r'], columns=['ball','pen','pencil'])
frame1.stack() # 得到一個Series對象
ser.unstack() # 得到一個DataFrame對象

# 長格式向寬格式轉化： DateFrame.pivot
wideframe=longframe.pivot('color','item')

刪除

刪除一列

del frame[‘ball‘]

刪除多余的行

frame.drop(‘white‘)

## 數據轉化

刪除重復數據

DataFrame 中duplicated()函數可以用來檢測重復的行，返回bool型Series對象

dframe.duplicated()
# 得到過濾結果
dframe[dframe.duplicated()]
# 講重復的行刪除
dframe.drop_duplicates<>

映射

dict 映射關系比較好

replace() 替換元素
map() 新建一列
rename() 替換索引

### 替換
newcolor={'rosso':'red','verde':'green'}
frame.replace(newcolors)

ser.replace(np.nan, 0)

### 添加元素
price={'ball':5.56,'mug':4.3}
frame['price']=frame['item'].map(price)

### 重命名軸索引
reindex={o:'first',2:'second'}
frame.replace(reindex)
frame.replace(index={1:'first'}, columns={'item':'object'})
# inplace 參數： 是否改變調用函數對象本身

離散化

result=[12,34,67,55,28,90.99,12,3,56,74,44,87,23,49,89,87]
bins=[0,25,50,75,100]
# 對result用cut函數
cat=pd.cut(result,bins)
cat >>> type(cat)
<class 'pandas.core.categorical.Categorical'>
# 返回的是類別對象
cat.levels
cat.labels
# 類別中計數
pd.value_counts(cat)
# cut 函數中的labels標簽 labels=['a','b','c']

異常值的檢測和過濾

randframe=pd.DataFrame(np.random.randn(1000,3))

descibe()函數查看每一列的描述性統計量

假設講比標準差大三倍的元素是為異常值，用std()函數可以求出每一列的標準差

randframe.std()

對DataFrame對象進行過濾

randframe[(np.abs(randframe)>(3*randframe.std())).any(1)]

排序

nframe=pd.DataFrame(np.arange(25).reshape(5,5))
# permutation(5)創建一個隨機順序整數
new_order=np.random.permutation(5) # 0-4
nframe.take(new_order)

隨機取樣

np.random.randint()函數
sample=np.random.randint(0,len(nframe),size=3)

字符串處理

內置字符串處理方法

split() 函數切割

test='12312,bob'
test.split(',')
# ['12312', 'bob']

strip()函數去空白

tokens=[s.strip() for s in test.split(',')]

join() 拼接

>>> strings=['1','2','3','45','5']
','.join(strings)

in index() find() 查找操作

test.index('bottom')
test.find('bottom')
'bottom' in test

count() 出現次數

test.count('bottom')

replace()

test.replace('A','a')

正則表達式

import re

幾個類別:

模式匹配
替換
切分

re.split()

text="This is        an \t odd \n text!"
re.split('\s+',text)

# 內部過程
regex=re.compile('\s+')
regex.split(text)

re.findall()

# 以A開頭不區分大小寫
text='A! This is my address: 16 Boltom Avenue, Boston'
re.findall('[A,a]\w+',text)

數據聚合

GroupBy

SPLIT-APPLY-COMBINE 三個階段

分組
用函數處理
合並

# 實際上只使用了GroupBy函數
 frame=pd.DataFrame({'color':['white','red','green','red','green'],'obj':['pen','pencil','pencil','ashtray','pen'],'price1':[5.56,4.20,1.3,0.56,2.75],'price2':[4.75,4.12,1.60,0.75,3.15]})

  >>> frame
   color      obj  price1  price2
0  white      pen    5.56    4.75
1    red   pencil    4.20    4.12
2  green   pencil    1.30    1.60
3    red  ashtray    0.56    0.75
4  green      pen    2.75    3.15


# 想要根據color組，計算price1的均值
group=frame['price1'].groupby(frame['color'])
# 得到一個group對象
group.groups # 查看分組情況
group.mean() # 查看均值
group.sum() # 查看分組總和

等級分組

ggroup=frame[‘price1‘].groupby([frame[‘color‘],frame[‘obj‘]])

frame[[‘price1‘,‘price2‘]].groupby(frame[‘color‘]).mean()

組叠代

for name, group in frame.groupby('color'):
    print(name)
    print(group)

分組函數

group=frame.groupby('color')
group['price1'].quantile(0.6) # 直接計算分位數

# 自定義聚合函數
def range(series):
    return series.max()-series.min()
group['price1'].agg(range)

group.agg(range)

Pandas 高級應用數據分析

range 標準數據 amp -c return taf 表達標準差深入pandas 數據處理三個階段數據準備數據轉化數據聚合數據準備加載組裝合並 - pandas.merge() 拼接 - pandas.concat() 組合 - pandas

[ 轉載 ] [Java面經]幹貨整理, Java面試題(覆蓋Java基礎,Java高級,JavaEE,數據庫,設計模式等)

post font www 數據庫 .com logs pan targe -m http://www.cnblogs.com/wang-meng/p/5898837.html[ 轉載 ] [Java面經]幹貨整理, Java面試題(覆蓋Java基礎,Java高級,Jav

如何做出一份高質量的數據分析報告

自己觀點關註數據很多處理情況 image 由於在日常工作中，無論是銷售、運營、產品還是市場，很多情況下都需要一份清晰明了的數據分析報告，能有效地將主題信息和分析結果傳達給客戶、領導和同事。在一份高質量的數據分析報告中，最重要的信息是數據可視化的表示，例如圖表

數據庫高級應用之觸發器

create 一段 reat 前端 values 簡單 update delete 操作觸發器簡單介紹：是一段由對數據的更改操作引發的自動執行的代碼，更改操作包括：update、insert和delete。作用：保證業務規則和數據完整性有兩種觸發器類型：前端觸發器、後端觸

數據庫高級應用之存儲過程

nbsp procedure 單個 sele eat creat gin mysq 服務端存儲過程作用：存儲在數據庫服務端供客戶端使用的調用執行的SQL語句就是存儲過程格式：sql 語句： create procedure p_student @dep

數據庫高級應用之事務

不可 mil body 情況 blog comm rollback 安排覆蓋事務的基本構成： begin transation update 支付表 set 賬戶總額 = 賬戶總額 - n where 賬戶名 = ‘A‘ update 支付表

Sql語法高級應用之四：使用視圖實現多表聯合數據明細

sele inner receiver rod erp upn pen logistic received 之前章節我們講到：如果某個表的數據是多個表的聯合，並且存在列與列的合並組成新列，用視圖是最好的方案。下面我分享兩個個真實的SQL語句案例 USE Wot_In

高端實戰 Python數據分析與機器學習實戰 Numpy/Pandas/Matplotlib等常用庫

反向傳播數據讀取初識微信試圖 ada 安裝python 改進貝葉斯課程簡介:? ? 課程風格通俗易懂，真實案例實戰。精心挑選真實的數據集為案例，通過Python數據科學庫numpy,pandas,matplot結合機器學習庫scikit-learn完成一些列的

python3.6中安裝numpy,pandas,scipy,scikit_learn,matplotlib等數據分析工具

scipy pandas python3.6中安裝numpy scikit_learn matplotlib等數據分析工具運行環境：python3.6+windows64位1.安裝pip（1）如果在安裝python3.6時，你有勾選關於pip的選項，那麽在python3,6中就會帶有pi

互聯網金融數據分析應用

tracking 提取集成 blank htm follow 聯網 src 螞蟻轉摘自：p=476">http://bbs.easysoo.cn/?p=476 互聯網金融在國內發展也才2年多的時間。從貨幣基金到P2P到眾籌到股票基金。從傳統ATM和手機銀行短信

數據分析python應用到的ggplot

技術 ont plot point 學院 and 技術分享散點 align 數據分析中應用到python中的ggplot庫，可以用來畫圖數據之類的用優達學院中課程七中的數據為例數據是：https://s3.amazonaws.com/content.udacity-d

Python金融應用編程(數據分析、定價與量化投資)

Python金融大數據項目實戰之Python金融應用編程(數據分析、定價與量化投資) 分享下載地址給大家——https://pan.baidu.com/s/1dFzXGUP 密碼: jbz8 本教程介紹使用Python進行數據分析和金融應用開發的基礎知識。課程從介紹簡單的金融應用開始，帶領

大數據項目實戰之Python金融應用編程(數據分析、定價與量化投資)

python金融大數據項目實戰之Python金融應用編程(數據分析、定價與量化投資)分享網盤地址：https://pan.baidu.com/s/1bpyGttl 密碼: bt56內容簡介本教程介紹使用Python進行數據分析和金融應用開發的基礎知識。課程從介紹簡單的金融應用開始，帶領學員回顧Python的基

動態可視化數據可視化之魅D3,Processing,pandas數據分析,科學計算包Numpy,可視化包Matplotlib,Matlab語言可視化的工作,Matlab沒有指針和引用是個大問題

com 行數據操作dom 判斷互動 otl .org zhang mouse 動態可視化數據可視化之魅D3,Processing,pandas數據分析,科學計算包Numpy,可視化包Matplotlib,Matlab語言可視化的工作,Matlab沒有指針和引用是個大問

數據分析模塊Numpy Pandas

nta 開源高性能 arr 列名命名空間 null 結合時間戳如何使用Python進行量化投資自己編寫：NumPy+pandas+Matplotlib+…… 在線平臺：聚寬、優礦、米筐、Quantopian、…&hel

規則引擎在數據分析中的應用

規則引擎數據分析前言：規則引擎通過將業務規則和開發者的技術決策分離, 實現了動態管理和修改業務規則而又不影響軟件系統的需求。以下通過實例對基於SQL 查詢、自定義規則等一系列場景來說明規則引擎在數據分析中的應用。在現代的企業級項目開發中, 商業決策邏輯或業務規則往往是硬編碼嵌入在系統各處代碼中的。

數據分析與展示——Pandas數據特征分析

label ascend 數量 argmin 技術 cnblogs sha end 標準 Pandas數據特征分析數據的排序將一組數據通過摘要（有損地提取數據特征的過程）的方式，可以獲得基本統計（含排序）、分布/累計統計、數據特征（相關性、周期性等）、數據挖掘（形成知識

數據分析工具Pandas

ack 函數 peer 夠快常見 type itcast val power 參考學習資料：http://pandas.pydata.org 1.什麽是Pandas? Pandas的名稱來自於面板數據（panel data）和Python數

Python數據分析與挖掘所需的Pandas常用知識

columns 列表元素其中標簽數據 shtml 導致 lenovo Python數據分析與挖掘所需的Pandas常用知識前言Pandas基於兩種數據類型：series與dataframe。一個series是一個一維的數據類型，其中每一個元素都有一個標簽。serie

[數據分析工具] Pandas 功能介紹（二）

技術 describe 索引 sum cat std 簡單方法 nbsp 條件過濾我們需要看第一季度的數據是怎樣的，就需要使用條件過濾體感的舒適適濕度是40-70，我們試著過濾出體感舒適濕度的數據最後整合上面兩種條件，在一季度體感濕度比較舒適的數據

Pandas 高級應用 數據分析

深入pandas 數據處理

三個階段

數據準備

合並

拼接

組合

軸向旋轉

刪除

刪除重復數據

映射

離散化

異常值的檢測和過濾

排序

字符串處理

內置字符串處理方法

正則表達式

數據聚合

GroupBy

等級分組

組叠代

分組函數

相關推薦

Pandas 高級應用數據分析