1. 程式人生 > >python資料合併、重塑、移除

python資料合併、重塑、移除

目錄

 

合併資料集

軸向合併

資料重塑

移除重複行

參考


合併資料集

        pd.merge(left, right, how, on, left_on, right_on, sort)

        

left

左表

right 右表
how 連線方式
on 連線的列名,預設是兩個表的同名列
left_on 左表用於連線的列名
right_on 右表用於連線的列名
sort 對連線後資料進行排序,預設是True,在大資料集使用時設為False可使效能更好

       使用的函式是pd.merge()。這個函式用於將兩個資料集連線起來,類似於資料庫中的join。連線方式有四種:預設是內連線how=‘inner',此外還有外連線outer、左連線left、右連線right。內連線表示取兩個資料集的交集,左連線表示取左邊的表以及量表的交集,右連線表示取右邊的表和兩表的交集,外連線取兩資料集並集。

軸向合併

         pd.concat(obj, axis, keys, join)

obj 用於合併的資料集
axis 指明連線的軸向,預設為0
keys 合併後資料集索引的名稱
join 連線方式,預設是outer

資料重塑

         這裡主要說的是pd.pivot()的使用,說是重塑可能有些難以理解,下面我們用一個例子來說明。一群人下班很高興,他們約好去超市買東西,每個人想買的都不一樣,出來後有人花得多有人花得少。我們以單號、姓名、物品名稱、價值為列建立一個表格,這時只有id對我們來說是不重複的,這就有可能是收銀臺打出的賬單的格式。但是通常我們想要知道的是每個人買了什麼東西,也就是說想構建一個以name為索引的表,這時就可以用pivot()。

pivot(index, columns, values)

index 作為索引的列的名稱
columns 被統計的列的名稱
values 生成的新列的值

移除重複行

參考

SQL的連線

pivot使用心得

利用Python進行資料分析