數據規整化——合並

阿新 • • 發佈：2018-02-21

技術 als 發現 one 層次分享圖片 eve iss 分層

數據集的合並或連接運算是通過一個或多個鍵將行鏈接起來的，而pandas的merge函數是對數據應用這些算法的主要切入點。

一對多：df1的數據有多個被標記為a和b的行，而df2中key列的每個值則僅對應一行。

df1 = DataFrame({‘key‘: [‘b‘, ‘b‘, ‘a‘, ‘c‘, ‘a‘, ‘a‘, ‘b‘],
                 ‘data1‘: range(7)})
df2 = DataFrame({‘key‘: [‘a‘, ‘b‘, ‘d‘],
　　　　　　　　　　　‘data2‘: range(3)})

註意：若沒有指定哪個列進行連接，則默認將重疊列的列名當作鍵。

pd.merge(df1, df2)
pd.merge(df1, df2, on=‘key‘)

若兩個對象的列名不同，也可以分別進行指定：

df3 = DataFrame({‘lkey‘: [‘b‘, ‘b‘, ‘a‘, ‘c‘, ‘a‘, ‘a‘, ‘b‘],
                 ‘data1‘: range(7)})
df4 = DataFrame({‘rkey‘: [‘a‘, ‘b‘, ‘d‘],
                 ‘data2‘: range(3)})
pd.merge(df3, df4, left_on=‘lkey‘, right_on=‘ 
rkey‘)
#默認merge做的事inner連接，結果是鍵的交集，其他方式有left、right、outer
pd.merge(df1, df2, how=‘outer‘)

多對多：

df1 = DataFrame({‘key‘: [‘b‘, ‘b‘, ‘a‘, ‘c‘, ‘a‘, ‘b‘],
                 ‘data1‘: range(6)})
df2 = DataFrame({‘key‘: [‘a‘, ‘b‘, ‘a‘, ‘b‘, ‘d‘],
                 ‘data2‘: range(5)})
#多對多產生的是行的笛卡爾積 left 

pd.merge(df1, df2, on=‘key‘, how=‘left‘)
#連接方式只影響出現在結果中的鍵 inner
pd.merge(df1, df2, how=‘inner‘)

若要根據多個鍵進行合並，需傳入一個由列名組成的列表：

left = DataFrame({‘key1‘: [‘foo‘, ‘foo‘, ‘bar‘],
                  ‘key2‘: [‘one‘, ‘two‘, ‘one‘],
                  ‘lval‘: [1, 2, 3]})
right = DataFrame({‘key1‘: [‘foo‘, ‘foo‘, ‘bar‘, ‘bar‘],
                   ‘key2‘: [‘one‘, ‘one‘, ‘one‘, ‘two‘],
                   ‘rval‘: [4, 5, 6, 7]})
pd.merge(left, right, on=[‘key1‘, ‘key2‘], how=‘outer‘)

對於合並運算需要考慮的最後一個問題是對重復列名的處理。而merge的suffixes選項，正用於指定附加到左右兩個dataframe對象的重復列名上的字符串：

pd.merge(left, right, on=‘key1‘)
pd.merge(left, right, on=‘key1‘, suffixes=(‘_left‘, ‘_right‘))

索引的合並：有時候連接鍵位於其索引中，則可以傳入left_index=True或right_index=True以說明索引應該被用作連接鍵。

left1 = DataFrame({‘key‘: [‘a‘, ‘b‘, ‘a‘, ‘a‘, ‘b‘, ‘c‘],
                  ‘value‘: range(6)})
right1 = DataFrame({‘group_val‘: [3.5, 7]}, index=[‘a‘, ‘b‘])
pd.merge(left1, right1, left_on=‘key‘, right_index=True)
#外連接
pd.merge(left1, right1, left_on=‘key‘, right_index=True, how=‘outer‘)

層次化索引數據，必須以列表的形式指明用作合並鍵的多個列

lefth = DataFrame({‘key1‘: [‘Ohio‘, ‘Ohio‘, ‘Ohio‘, ‘Nevada‘, ‘Nevada‘],
                   ‘key2‘: [2000, 2001, 2002, 2001, 2002],
                   ‘data‘: np.arange(5.)})
righth = DataFrame(np.arange(12).reshape((6, 2)),
                   index=[[‘Nevada‘, ‘Nevada‘, ‘Ohio‘, ‘Ohio‘, ‘Ohio‘, ‘Ohio‘],
                          [2001, 2000, 2000, 2000, 2001, 2002]],
                   columns=[‘event1‘, ‘event2‘])

pd.merge(lefth, righth, left_on=[‘key1‘, ‘key2‘], right_index=True)
pd.merge(lefth, righth, left_on=[‘key1‘, ‘key2‘],
         right_index=True, how=‘outer‘)

直接合並雙方的索引也可以：

left2 = DataFrame([[1., 2.], [3., 4.], [5., 6.]], index=[‘a‘, ‘c‘, ‘e‘],
                 columns=[‘Ohio‘, ‘Nevada‘])
right2 = DataFrame([[7., 8.], [9., 10.], [11., 12.], [13, 14]],
                   index=[‘b‘, ‘c‘, ‘d‘, ‘e‘], columns=[‘Missouri‘, ‘Alabama‘])

pd.merge(left2, right2, how=‘outer‘, left_index=True, right_index=True)
#join實例方法，更為方便地按索引合並
left2.join(right2, how=‘outer‘)

軸向連接：pd.concatenation 簡單數據連接

arr = np.arange(12).reshape((3, 4))
‘‘‘
array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])
‘‘‘
np.concatenate([arr, arr], axis=1)
‘‘‘
array([[ 0,  1,  2,  3,  0,  1,  2,  3],
       [ 4,  5,  6,  7,  4,  5,  6,  7],
       [ 8,  9, 10, 11,  8,  9, 10, 11]])
‘‘‘

pandas的concat函數提供了一種能夠軸向連接的方式。

s1 = Series([0, 1], index=[‘a‘, ‘b‘])
s2 = Series([2, 3, 4], index=[‘c‘, ‘d‘, ‘e‘])
s3 = Series([5, 6], index=[‘f‘, ‘g‘])
pd.concat([s1, s2, s3])
#默認concat的axis=0返回Series對象，而axis=1則返回dataframe對象
pd.concat([s1, s2, s3], axis=1)

concat函數的參數
參數	說明
objs	參與連接的pandas對象的列表或者字典，唯一的必須參數
axis	指明連接的軸向，默認0
join	選項包括inner(交集)、outer(並集)
join_axes	指明用於其他(n-1)條軸的索引，不執行並集或交集運算
keys	與連接對象有關的值，用於形成連接軸向上的層次化索引。可以是任意值的列表或數組
levels	指定用作層次化索引各級別上的索引（若設置了keys的話）
names	用於創建分層級別的名稱（若設置了keys和levels的話）
verify_integrity	檢查結果對象新軸上的重復情況，若發現則異常，默認允許重復（false）
ignore_index	不保留連接軸上的索引，產生一組新索引

合並重疊數據：Series中combine_first方法，dataframe也可以使用

a = Series([np.nan, 2.5, np.nan, 3.5, 4.5, np.nan],
           index=[‘f‘, ‘e‘, ‘d‘, ‘c‘, ‘b‘, ‘a‘])
b = Series(np.arange(len(a), dtype=np.float64),
           index=[‘f‘, ‘e‘, ‘d‘, ‘c‘, ‘b‘, ‘a‘])
#np.where方法
np.where(pd.isnull(a), b, a)
‘‘‘
array([ 0. ,  2.5,  2. ,  3.5,  4.5,  nan])
‘‘‘
#combine_first方法
b[:-2].combine_first(a[2:])
‘‘‘
a    NaN
b    4.5
c    3.0
d    2.0
e    1.0
f    0.0
dtype: float64
‘‘‘

數據規整化——合並

技術 als 發現 one 層次分享圖片 eve iss 分層數據集的合並或連接運算是通過一個或多個鍵將行鏈接起來的，而pandas的merge函數是對數據應用這些算法的主要切入點。一對多：df1的數據有多個被標記為a和b的行，而df2中key列的每個值則僅對應一行。

數據結構的合並

基於問題 tro 重疊 span 區間特殊性 nlogn bzoj3 引言有一類經典的數據結構問題，要求高效地支持以下幾種操作： 1.新建一個數據結構 2.將兩個數據結構的信息合並（要求合並操作滿足交換律、結合律） 3.在數據結構中查詢某些信息這類問題有時

數據清洗、合並、轉化和重構

stack 8 8 2.0 str 食品添加劑 -m value lambda 聲明變量數據清洗是數據分析關鍵的一步，直接影響之後的處理工作數據需要修改嗎？有什麽需要修改的嗎？數據應該怎麽調整才能適用於接下來的分析和挖掘？是一個叠代的過程，實際項目中可能

python數據表的合並(python pandas join() 、merge()和concat()的用法)

div 等價 nta cti nio eve 數據合並 inner lai merage# pandas提供了一個類似於關系數據庫的連接(join)操作的方法<Strong>merage</Strong>,可以根據一個或多個鍵將不同DataFr

PCB MS SQL 排序應用---相鄰數據且相同合並處理

bubuko 分享數據 with 排序 num 要求數據處理轉換這是一個很有趣SQL數據處理應用,具體需求如下 ERP需要工程將物料編碼相鄰的編碼合並求和BOM用量,巧妙的用到了已有排序號與分組排序號之間的差值求解示例：原數據：要求轉換：實際轉換後數據：

js 倆組數據根據id合並

遇到 === urn col color bsp div 例如 ons 項目中有時會遇到倆組數據id相同，需要通過合並成為一組數據。例如： a = [{id:1,age:10},{id:2,age:20},{id:3,age:30}] b = [{id:3,s

python學習之 -- 數據序列化

單獨 get 多次 __main__ print lambda 字典學習 module json / pickle 數據序列化序列化定義：把變量從內存中變成可存儲或傳輸的過程稱為序列化。反序列化：把變量內容從序列化的對象重新讀到內存裏稱為反序列胡。序列化模塊之--pick

Ubuntu上使用Redis數據庫存儲SessionID並實現Session共享

del sudo session共享 www. ins start data exp ssp p { margin-bottom: 0.1in; direction: ltr; color: #00000a; line-height: 120%; text-align: l

Bzoj 2733: [HNOI2012]永無鄉數組Splay+啟發式合並

memory clas ring solved script none 通過接下來 update 2733: [HNOI2012]永無鄉 Time Limit: 10 Sec Memory Limit: 128 MBSubmit: 3955 Solved: 2112

數據結構化與保存

數據結構點擊 head model odin pan exc return source 1.結構化：單條新聞的詳情字典：news 一個列表頁所有單條新聞匯總列表：newsls.append(news) 所有列表頁的所有新聞匯總列表：newstotal.extend(

【轉】從msql數據庫處理高並發商品超賣

串行顯示字段 pre upd 缺點訂單 commit 平時今天王總又給我們上了一課，其實mysql處理高並發，防止庫存超賣的問題，在去年的時候，王總已經提過；但是很可惜，即使當時大家都聽懂了，但是在現實開發中，還是沒這方面的意識。今天就我的一些理解，整理一下這個問題

程序通過定義學生結構體變量，存儲學生的學號、姓名和3門課的成績。函數fun的功能是：對形參b所指結構體變量中的數據進行修改，並在主函數中輸出修改後的數據。

一次數據 mod long 成績 nbsp data 例如 main 程序通過定義學生結構體變量，存儲學生的學號、姓名和3門課的成績。函數fun的功能是：對形參b所指結構體變量中的數據進行修改，並在主函數中輸出修改後的數據。例如，若b所指變量t中的學號、姓名和三門課的成績

數據離散化 ( 以及 stl 中的 unique( ) 的用法 )+ bzoj3289:Mato的文件管理

sort ++ unique archive tails 個數離散宋體 ont http://blog.csdn.net/gokou_ruri/article/details/7723378 ↑慣例Mark大神的博客 bzoj3289:Mato的文件管理線段樹求逆

資產模型數據初始化時應註意的事項

date 行數 span badi 激活資產 html 行數據 .com 資產模型建立之後，在數據初始化上有個比較特殊的地方，需要激活一個BADI，然後按順序初始化數據。 1. 要AA11和AA12保證抽數時的增量提取間隔和總賬行一致。 2. 數據

數據庫自動備份並打成tar.gz包

span vars color 備份 bsp tar info pan path #!/bin/sh # database info db_user="user" db_pass="pass" db_host="127.0.0.1" db_name="dbname"

excel中比較兩列數據是否相同，並標上顏色

技術顏色只為 alt exce 選中相同中比格式選中B列，點擊條件格式中的新建規則，選擇第二項-只為包含以下內容的單元格設置格式，單元格值 - 不等於 - =$A1,設置格式顯示其他顏色的字體。 excel中比較兩列數據是否相同，並標上顏色

【XSY1551】往事廣義後綴數組線段樹合並

關鍵字排序字符串 stdin time utili 題目信息 break 後綴數組題目大意　　給你一顆trie樹，令$s_i$為點$i$到根的路徑上的字符組成的字符串。求$max_{u\neq v}(LCP(s_u,s_v)+LCS(s_u,s_v))$

EF Core下利用Mysql進行數據存儲在並發訪問下的數據同步問題

sta 分享 AC point 解釋 evel post mysql數據庫 cor 小故事在開始講這篇文章之前，我們來說一個小故事，純素虛構（真實的存錢邏輯並非如此）小劉發工資後，趕忙拿著現金去銀行，準備把錢存起來，而與此同時，小劉的老婆劉嫂知道小劉的品性，知道他發

python3數據序列化工具json

數據序列化 json序列化 pickle序列化文件中默認只能存字符串，是不能存字典、二進制這種特殊類型的數據的，如果想把字典格式的數據存入到文件中，需要轉換一下數據類型data = {"Name":"XiaoMing","Age":22

數據庫讀寫並發控制

寫鎖外部相同 nbsp try 丟失重復 lock 行鎖在數據庫中，並發控制是指在多個用戶/進程/線程同時對數據庫進行操作時，如何保證事務的一致性和隔離性的，同時最大程度地並發。當多個用戶/進程/線程同時對數據庫進行操作時，會出現3種沖突情形：讀-讀，不存在任

數據規整化——合並

相關推薦