1. 程式人生 > >python 資料清洗之資料合併、轉換、過濾、排序

python 資料清洗之資料合併、轉換、過濾、排序

資料合併

在pandas中可以通過merge對資料進行合併操作。

import numpy asnp

import pandas aspd

data1 = pd.DataFrame({'level':['a','b','c','d'],

'numeber':[1,3,5,7]})

data2=pd.DataFrame({'level':['a','b','c','e'],

'numeber':[2,3,6,10]})

print(data1)

結果為:


print(data2)

結果為:


print(pd.merge(data1,data2))

結果為:


可以看到data1和data2中用於相同標籤的欄位顯示,而其他欄位則被捨棄,這相當於SQL中做inner join連線操作。

此外還有outer,ringt,left等連線方式,用關鍵詞how的進行表示。

data3 = pd.DataFrame({'level1':['a','b','c','d'],

'numeber1':[1,3,5,7]})

data4=pd.DataFrame({'level2'

:['a','b','c','e'],

'numeber2':[2,3,6,10]})

print(pd.merge(data3,data4,left_on='level1',right_on='level2'))

結果為:


兩個資料框中如果列名不同的情況下,我們可以通過指定letf_on 和right_on兩個引數把資料連線在一起

print(pd.merge(data3,data4,left_on='level1',right_on='level2',how='left'))

結果為:


其他詳細引數說明


重疊資料合併

有時候我們會遇到重疊資料需要進行合併處理,此時可以用comebine_first函式。

data3 = pd.DataFrame({'level':['a','b','c','d'],

'numeber1':[1,

相關推薦

python 資料清洗資料合併轉換過濾排序

資料合併 在pandas中可以通過merge對資料進行合併操作。 import numpy asnp import pandas aspd data1 = pd.DataFrame({'level':['a','b','c'

python開發基礎資料型別字元編碼檔案操作

一、知識點 1.身份運算: 2.現在計算機系統通用的字元編碼工作方式:在計算機記憶體中,統一使用Unicode編碼,當需要儲存到硬碟或者需要傳輸的時候,就轉換為UTF-8編碼。用記事本編輯的時候,從檔案讀取的UTF-8字元被轉換為Unicode字元到記憶體裡,編輯完成後,儲存的時候再把Unicode轉

python學習筆記資料型別字元編碼檔案處理

    1、資料型別   1、數字(int,float)     整形(int):定義 age=20  #本質age=int(20)     浮點型別:salary=3000.3 #本質salary=float(3000.3)     還有不常用的長整型、複數。   2、字串

Python基礎資料結構資料轉換(Dict,Set,Tuple,List)

本章是Python基礎資料結構的第六篇,由於之前沒有接觸過太多的Python版本的資料結構,所以在學習的過程中集百家之長和自己的見解,加以實踐,學習Python。 Python中用到tuple的方法,和注意事項都以程式碼的形式體現 #!/usr

Python核心資料型別序列型別及其運算(字元列表元組運算及其深淺拷貝)

Python核心資料型別之序列型別及其運算(列表、元組運算及其拷貝)序列:序列表示索引為非負整數的有序物件集合,包括字串、列表和元組,所有序列都支援迭代;序列型別:字串(strings):字串也屬於序列型別,不可變型別;         字串字面量:把文字放入單引號、雙引號或

Python基本語法資料型別

  Python資料型別 基本資料型別 資料型別 說明 Numbers int 有符號整型 long 長整型[也可以代表八

Python機器學習資料預處理

# -*- coding: utf-8 -*- """ Created on Sat Sep 29 22:39:26 2018 @author: Lxiao217 email:[email protected] """ #資料預處理 #CSV(comma-srpared values,

Python學習手冊資料型別

 在上一篇文章中,我們介紹了 Python 的異常和檔案,現在我們介紹 Python 中的資料型別。 檢視上一篇文章請點選:https://www.cnblogs.com/dustman/p/9979931.html 資料型別None 型別None 型別是 Python 的特殊型別,它

python進階資料分析與展示(三)

資料分析之表示 資料存取與函式 資料的CSV檔案存取 CSV (Comma‐Separated Value, 逗號分隔值) CSV是一種常見的檔案格式,用來儲存批量資料。 np.savetxt(frame, array, fmt=’%.

python進階資料分析與展示(二)

資料分析之表示 NumPy庫入門 資料的維度 一維資料 一維資料由對等關係的有序或無序資料構成,採用線性方式組織。 例如:3.1413, 3.1398, 3.1404, 3.1401, 3.1349, 3.1376。 對應列

python進階資料分析與展示(一)

資料分析之前奏 Anaconda IDE的使用方法 一個數據表達一個含義,一組資料表達一個或多個含義。 摘要 有損地提取資料特徵的過程。 基本統計(含排序)。 分佈/累計統計。 資料特徵。 相關性、

python程式設計篇資料結構與演算法(三)

連結串列 為什麼需要連結串列 順序表的構建需要預先知道資料大小來申請連續的儲存空間,而在進行擴充時又需要進行資料的搬遷,所以使用起來並不是很靈活。 連結串列結構可以充分利用計算機記憶體空間,實現靈活的記憶體動態管理。 連結串列的定義 連結串列(Linked li

資料結構雜湊表與連結串列陣列

雜湊表 主要描述雜湊表的定義:通過關鍵碼尋找值的資料對映結構,類似於查字典 當存在雜湊衝突時,有兩種常用的方式:開發定址法和鏈地址法 開發定址法通俗的來說就是判斷該地址是否存資料,沒存就放進去,存了就找下一個地址,依次類推,問題是如果空間不足,無法處理衝突。 鏈地

專案知識學習篇———資料清洗kettle以及整合到java專案

一、kettle工具下載 連結: https://pan.baidu.com/s/13Mx-QJkY-5dY-nDIpuZAzw 提取碼: x146 pdi-ce-8.1.0.0.zip就是kettle軟體   下載之後解壓     進入資料夾根目錄點選Spoon.bat就能開啟客戶端  二、kettle

Python基礎學習資料型別

#列表 list1=[1,2,3] print(type(list1))   #字典 dict1={"title":"web開發"} print(type(dict1)) print(dict1['title'])   #元組 tuple1=(11

python程式設計篇資料結構與演算法(九)

快速排序 快速排序(英語:Quicksort),又稱劃分交換排序(partition-exchange sort),通過一趟排序將要排序的資料分割成獨立的兩部分,其中一部分的所有資料都比另外一部分的所有資料都要小,然後再按此方法對這兩部分資料分別進行快速排序,整

python程式設計篇資料結構與演算法(十一)

歸併排序 歸併排序是採用分治法的一個非常典型的應用。歸併排序的思想就是先遞迴分解陣列,再合併陣列。 將陣列分解最小之後,然後合併兩個有序陣列,基本思路是比較兩個陣列的最前面的數,誰小就先取誰,取了後相應的指標就往後移一位。然後再比較,直至一個數組為空,最後把另一

python程式設計篇資料結構與演算法(十二)

搜尋 搜尋是在一個專案集合中找到一個特定專案的演算法過程。搜尋通常的答案是真的或假的,因為該專案是否存在。 搜尋的幾種常見方法:順序查詢、二分法查詢、二叉樹查詢、雜湊查詢 二分法查詢 二分查詢又稱折半查詢,優點是比較次數少,查詢速度快,平均效能好;其缺點是要求待

python程式設計篇資料結構與演算法(十三)

樹與樹演算法 樹的概念 樹(英語:tree)是一種抽象資料型別(ADT)或是實作這種抽象資料型別的資料結構,用來模擬具有樹狀結構性質的資料集合。它是由n(n>=1)個有限節點組成一個具有層次關係的集合。把它叫做“樹”是因為它看起來像一棵倒掛的樹,也就是說它

python程式設計篇資料結構與演算法(十四)

二叉樹 二叉樹的概念 二叉樹是每個節點最多有兩個子樹的樹結構。通常子樹被稱作“左子樹”(left subtree)和“右子樹”(right subtree) 二叉樹的性質 性質1: 在二叉樹的第i層上至多有2^(i-1)個結點(i>0) 性質2: 深度為k