利用python進行資料分析之——資料規整化2（ETL）

阿新 • • 發佈：2019-02-16

待我學有所成，結髮與蕊可好。@夏瑾墨 by Jooey

3.資料的軸向連線
Nunpy 有一個用於合併串聯原始Numpy陣列的concatenation函式

import numpy as np
import pandas as pd
from pandas import Series,DataFrame

arr=np.arange(12).reshape((3,4))
print （arr）
print （np.concatenate([arr,arr],axis=1)）

輸出結果：

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]] 

[[ 0  1  2  3  0  1  2  3]
 [ 4  5  6  7  4  5  6  7]
 [ 8  9 10 11  8  9 10 11]]

假設有三個沒有重疊索引的Series

s1=Series([0,1],index=['a','b'])
s2=Series([2,3,4],index=['c','d','e'])
s3=Series([5,6],index=['f','g'])
print (pd.concat([s1,s2,s3]))

輸出結果：

a    0
b    1
c    2
d    3
e    4
f    5
g    6
dtype: int64

預設情況下，concat是在axis=0上工作的，最終產生一個新的Series。如果傳入axis=1，則結果就會變成一個DataFrame（axis=1是列）

print (pd.concat([s1,s2,s3],axis=1))

輸出結果：

     0    1    2
a  0.0  NaN  NaN
b  1.0  NaN  NaN
c  NaN  2.0  NaN
d  NaN  3.0  NaN
e  NaN  4.0  NaN
f  NaN  NaN  5.0
g  NaN  NaN  6.0

這種情況下，另外一條軸上沒有重疊，從索引的有序並集（外連線）上就可以看出來。傳入join=‘inner’即可得到它們的交集

s4=pd.concat([s1*5,s3])
print (pd.concat([s1,s4],axis=1))
print (pd.concat([s1,s4],axis=1,join='inner'))

輸出結果：

你可以通過join_axes指定要在其它軸上使用的索引

print (pd.concat([s1,s4],axis=1,join_axes=[['a','c','b','e']]))

輸出結果：

     0    1
a  0.0  0.0
c  NaN  NaN
b  1.0  5.0
e  NaN  NaN

Nan := Not A Number
有個問題，參與連線的片段在結果中區分不開。假設你想在連線軸上建立一個層次化索引。使用keys引數即可達到這個目的

result=pd.concat([s1,s2,s3],keys=['one','two','three'])
print (result)
print (result.unstack())

輸出結果：

one    a    0
       b    1
two    c    2
       d    3
       e    4
three  f    5
       g    6
dtype: int64
         a    b    c    d    e    f    g
one    0.0  1.0  NaN  NaN  NaN  NaN  NaN
two    NaN  NaN  2.0  3.0  4.0  NaN  NaN
three  NaN  NaN  NaN  NaN  NaN  5.0  6.0

如果沿著axis=1對Series進行合併，則keys就會成為DataFrame的列頭


print （pd.concat([s1,s2,s3],axis=1,keys=['one','two','three'])）

輸出結果：

   one  two  three
a    0  NaN    NaN
b    1  NaN    NaN
c  NaN    2    NaN
d  NaN    3    NaN
e  NaN    4    NaN
f  NaN  NaN      5
g  NaN  NaN      6

同樣的邏輯對DataFrame物件也是一樣

df5=DataFrame(np.arange(6).reshape(3,2),index=['a','b','c'],columns=['one','two'])
df6=DataFrame(5+np.arange(4).reshape(2,2),index=['a','c'],columns=['three','four'])
print (pd.concat([df5,df6],axis=1,keys=['level1','level2']))

輸出結果：

  level1     level2     
     one two  three four
a      0   1      5    6
b      2   3    NaN  NaN
c      4   5      7    8

如果傳入的不是列表而是一個字典，則字典的鍵就會被當做keys選項的值

print （pd.concat({'level1':df5,'level2':df6},axis=1)）

輸出結果：

  level1     level2     
     one two  three four
a      0   1      5    6
b      2   3    NaN  NaN
c      4   5      7    8

此外還有兩個用於管理層次化索引建立方式的引數，見下表

print (pd.concat([df5,df6],axis=1,keys=['level1','level2'],names=['upper','lower']))

輸出結果：

upper level1     level2     
lower    one two  three four
a          0   1      5    6
b          2   3    NaN  NaN
c          4   5      7    8

python3裡面寫函式的相關引數只需依次逗號分隔即可。
這裡寫圖片描述
最後一個需要考慮的問題就是，跟當前分析工作無關的DataFrame行索引。傳入ignore_index=True即可

df7=DataFrame(np.random.randn(3,4),columns=['a','b','c','d'])
df8=DataFrame(np.random.randn(2,3),columns=['b','d','a'])
print (df7)
print (df8)
print (pd.concat([df7,df8],ignore_index=True))

輸出結果：

       a         b         c         d
0 -0.844224  0.593684  0.144469  0.729945
1  0.484216 -0.736679 -2.385474  0.004167
2 -0.007380 -0.129935 -0.014069  0.907947
          b         d         a
0 -1.377938 -0.616348  0.936278
1  0.400851  2.066192  0.127229
          a         b         c         d
0 -0.844224  0.593684  0.144469  0.729945
1  0.484216 -0.736679 -2.385474  0.004167
2 -0.007380 -0.129935 -0.014069  0.907947
3  0.936278 -1.377938       NaN -0.616348
4  0.127229  0.400851       NaN  2.066192

待我學有所成，結髮與蕊可好。@夏瑾墨 by Jooey

利用python進行資料分析之——資料規整化2（ETL）

待我學有所成，結髮與蕊可好。@夏瑾墨 by Jooey 3.資料的軸向連線 Nunpy 有一個用於合併串聯原始Numpy陣列的concatenation函式 import numpy as np import pandas as pd from p

利用python進行資料分析之——資料規整化1（ETL）

待我學有所成，結髮與蕊可好。@夏瑾墨 by Jooey 合併資料集資料庫風格的DataFrame合併索引上的合併軸向連線 1.資料庫風格的DataFrame合併 i

python資料分析之numpy初始化（一）

以下都用numpy的標準“import numpy as np” 1.numpy是同構資料多維容器，同構即資料型別相同 2.初始化： 2.1np.arange([start,] end [, step

python資料分析之資料視覺化matplotlib

import matplotlib.pyplot as plt import numpy as np import numpy.random as randn import pandas as pd f

Python資料分析之資料視覺化

資料視覺化是資料分析很重要的一部分，它能幫助我們更好的從繁雜的資料中更直觀更有效的獲取資訊。 matplotlib是用來建立圖表的工具包之一。其目的是為Python構建一個Matlab式的繪圖介面，初次接觸的時候我就感覺這貨跟matlab畫的圖表很相似。雖說其

利用Python進行機器學習和資料探勘概述

利用Python資料探勘和機器學習的概述前言：本文主要描述了使用Python進行資料探勘業務的優勢並介紹了相關的資料處理工具包pandas和機器學習演算法庫scikit-learn。為什麼使用python進行資料分析？對很多人來說，P

利用python進行吃雞(絕地求生)視覺化分析

相關資料下載，請關注公眾號"一行資料"，回覆"pubg"可得既然學習一段時間python了，那麼得拿些好玩的東西練練手，這裡通過載入幾萬局的吃雞資料，來對吃雞勝率進行視覺化分析。通過繪製擊殺地圖和被擊殺地圖查詢LYB的藏身之地下面貼上程式碼，和分析。 #這

Python基礎-python資料型別之元祖、字典（四）

元祖　　　Python的元組與列表類似，不同之處在於元組的元素不能修改。元組使用小括號，列表使用方括號。 tuple=(1,2,3,4) print(tuple) 　　訪問元祖　　　　通過索引訪問，也可以進行切片操作 tuple=(1,2,3,4) print(tuple[2])

資料分析之Power Pivot常用函式（持續更新）

RELATED函式 RELATED(ColumnName) RELATED(返回的對應值的列名） →從其他表返回相關值類似於Excel中的Vlookup,Power Query中的合併查詢RELATED 函式要求當前表與包含相關資訊的表之間存在關係,需要指定包含所需資

《Python資料分析與挖掘實戰》筆記（一）：資料探勘基礎

一、資料探勘的基本任務利用分類與預測、聚類分析、關聯規則、時序模式、偏差檢測、智慧推薦等方法，幫助企業提取資料中蘊含的商業價值，提升企業的競爭力。二、資料探勘建模過程定義挖掘目標：任務目標和完

linux核心分析--核心中使用的資料結構之雜湊表hlist（三）

前言： 1.基本概念：散列表（Hash　table，也叫雜湊表），是根據關鍵碼值(Key　value)而直接進行訪問的資料結構。也就是說，它通過把關鍵碼值對映到表中一個位置來訪問記錄，以加快查詢的速度。這個對映函式叫做雜湊函式，存放記錄的陣列叫做散列表。 2. 常用的構造雜湊函式的方法

《Python資料分析與展示》學習筆記（一）numpy入門

一.資料分析的基礎 Python在資料科學領域有一套成熟的工具鏈，numpy就是整個工具鏈的基礎構件，就像數位電路中的與非門，是其他複雜電路的基礎。 numpy在數學中對應的理論就是線性代數，n

Python資料分析與挖掘實戰學習筆記（一）

資料預處理1. 資料清洗（1）缺失值處理三種方法：刪除記錄、資料插補、不處理常見插補方法：均值/中位數/眾數插補、使用固定值/期望值、迴歸方法（根據已有資料和其他與其有關變數等建立擬合模型來預測）、插值法（利用已知點建立合適的插值函式，如拉格朗日函式）我們以餐廳銷量資

《Python資料分析與挖掘實戰》筆記（五）：資料建模

分類與預測主要分類與預測演算法迴歸分析確定預測值與其他變數關係。線性、非線性、Logistic、嶺迴歸、主成分迴歸等決策樹自頂向下分類人工神經網路用神經網路表示輸入與輸出之間的關係貝葉斯網路又稱信度網路，是不確定知識表達和推理領域最有效的理論模

資料結構之二叉搜尋樹（BST）

JavaScript實現二叉搜尋樹（BST）二叉搜尋樹定義二叉搜尋樹JavaScript程式碼實現 1. 二叉搜尋樹二叉查詢樹（英語：Binary Search Tree），也稱為二叉搜尋樹、有序二叉樹（ordered binary tree）或排序二

《深入淺出資料分析》一書要點記錄（三）：第10章到第13章

10. 迴歸——預測要點：（1）演算法：為了完成某個計算而執行的任何過程。（2）散點圖：見第4章，用於顯示觀察結果的成對關係。（3）平均值圖：一種散點圖，顯示了與X軸上的每個區間相對應的Y軸數值。（4）迴歸線：最準確地貫穿平均值圖中各個點的直線，可以用等式

【資料結構之二叉樹】（一）B樹、B-樹、B+樹、B*樹介紹，和B+樹更適合做檔案索引的原因

今天看資料庫，書中提到：由於索引是採用 B 樹結構儲存的，所以對應的索引項並不會被刪除，經過一段時間的增刪改操作後，資料庫中就會出現大量的儲存碎片，這和磁碟碎片、記憶體碎片產生原理是類似的，這些儲存碎片不僅佔用了儲存空間，而且降低了資料庫執行的速度。如果發現索引

【資料結構之二叉樹】（二）B+樹比B樹更適合做檔案索引的原因

原因：相對於B樹，（1）B+樹空間利用率更高，可減少I/O次數，一般來說，索引本身也很大，不可能全部儲存在記憶體中，因此索引往往以索引檔案的形式儲存的磁碟上。這樣的話，索引查詢過程中就要產生磁碟I/O消耗。而因為B+樹的內部節點只是作為索引使用，而不像B-樹那樣每個節點都需要儲存硬碟指標。

資料分析第十篇：分類（kNN）

K最近鄰(kNN，k-NearestNeighbor)演算法是一種監督式的分類方法，但是，它並不存在單獨的訓練過程，在分類方法中屬於惰性學習法，也就是說，當給定一個訓練資料集時，惰性學習法簡單地儲存或稍加處理，並一直等待，直到給定一個檢驗資料集時，才開始構造模型，以便根據已儲存的訓練資料集的相似性對檢驗資料集

大資料分析常用的工具有哪些（二）

在上篇文章中，筆者為大家介紹了幾種常用的大資料使用工具，而除了那些之外，還有一些在大資料中經常會用到的工具。接下來，就讓筆者繼續為大家介紹一下吧。第三類，資料探勘類。 1.RapidMiner 這款工具主要就是用來對資料進行預測和分析的，其視覺化的介面，讓使用者不必再自行

利用python進行資料分析之——資料規整化2（ETL）

相關推薦