1. 程式人生 > >Pandas玩轉資料(七) -- Series和DataFrame去重

Pandas玩轉資料(七) -- Series和DataFrame去重

資料分析彙總學習

import numpy as np
import pandas as pd
from pandas import Series, DataFrame

df = pd.read_csv('demo_duplicate.csv')
df.head()
Out[40]: 
   Unnamed: 0   Price  Seqno Symbol        time
0           0  1623.0    0.0   APPL  1473411962
1           1  1623.0    0.0   APPL  1473411962
2           2  1623.0
0.0 APPL 1473411963 3 3 1623.0 0.0 APPL 1473411963 4 4 1649.0 1.0 APPL 1473411963 # df.size Out[41]: 19945 len(df) Out[42]: 3989 len(df['Seqno'].unique()) Out[46]: 1000 # 某一行Series的duplicate df['Seqno'].duplicated().head() Out[47]: 0 False 1 True 2 True
3 True 4 False Name: Seqno, dtype: bool type(df['Seqno'].duplicated()) Out[48]: pandas.core.series.Series # DataFrame去重,drop_dupliates df.drop_duplicates(['Seqno']).head() Out[49]: Unnamed: 0 Price Seqno Symbol time 0 0 1623.0 0.0 APPL 1473411962 4 4 1649.0
1.0 APPL 1473411963 8 8 1642.0 2.0 APPL 1473411964 12 12 1636.0 3.0 APPL 1473411965 16 16 1669.0 4.0 APPL 1473411966 # keep引數指定保留哪一個 df.drop_duplicates(['Seqno'], keep='last').head() Out[53]: Unnamed: 0 Price Seqno Symbol time 3 3 1623.0 0.0 APPL 1473411963 7 7 1649.0 1.0 APPL 1473411964 11 11 1642.0 2.0 APPL 1473411965 15 15 1636.0 3.0 APPL 1473411966 19 19 1669.0 4.0 APPL 1473411967

相關推薦

Pandas資料) -- SeriesDataFrame

資料分析彙總學習 import numpy as np import pandas as pd from pandas import Series, DataFrame df = pd.read

Pandas資料九) -- 時間序列的取樣畫圖

資料分析彙總學習 import numpy as np import pandas as pd from pandas import Series, DataFrame # 生成一個時間序列 t_range = pd.date_range('2016-0

pandas的兩種資料型別:SeriesDataFrame

首先要明確pandas是做什麼的,在確定是如何做的,通過哪些方式去做的? pandas是做什麼的?      Python Data Analysis Library 或 pandas 是基於NumPy 的一種工具,該工具是為了解決資料分析任務而建立的。Pandas 納入

python資料分析五:SeriesDataFrame的索引的方法(ix()方法)

# -*- coding: utf-8 -*- import pandas as pd from pandas import Series,DataFrame import numpy as np ''' 索引物件 ''' obj=Series(range(3),ind

資料結構——第章:優先佇列

內容概要: 什麼是優先佇列? 堆的基礎結構 向堆中新增元素Sift Up 從堆中取出元素和Sift Down Heapify和Replace 基於堆的優先佇列 LeetCode上優先佇列相關的問題 java中的PriorityQueue 和堆相關的更多話題和

資料結構——均攤複雜度防止複雜度的震盪筆記)

資料規模 時間複雜度 並不是所有的雙層迴圈都是O(n^2)的 複雜度實驗來確定複雜度 // O(N) 兩倍增加 int findMax( int arr[], int n ){ assert( n > 0

HAWQ + MADlib 資料探勘之)——關聯規則方法之Apriori演算法

一、關聯規則簡介        關聯規則挖掘的目標是發現數據項集之間的關聯關係,是資料挖據中一個重要的課題。關聯規則最初是針對購物籃分析(Market Basket Analysis)問題提出的。假設超市經理想更多地瞭解顧客的購物習慣,特別是想知道,哪些商品顧客可能會在一次購

資料結構——第二章:棧佇列

內容概覽: 棧和棧的應用:撤銷操作和系統棧 棧的基本實現 棧的另外一個應用:括號匹配 關於Leetcode的更多說明 陣列佇列 迴圈佇列 迴圈佇列的實現 陣列佇列和迴圈佇列的比較 2-1.棧(Stack) 棧也是一種線性結構

資料結構——第四章:連結串列遞迴

內容概要: Leetcode中和連結串列相關的問題 測試自己的Leetcode連結串列程式碼 遞迴繼承與遞迴的巨集觀語意 連結串列的天然遞迴結構性質 遞迴執行機制:遞迴的微觀解讀 遞迴演算法的除錯 更多和連結串列相關的問題 1-Leetcode中

《用Python資料》專案—線性迴歸分析入門之波士頓房價預測二)

接上一部分,此篇將用tensorflow建立神經網路,對波士頓房價資料進行簡單建模預測。 二、使用tensorflow擬合boston房價datasets 1、資料處理依然利用sklearn來分訓練集和測試集。 2、使用一層隱藏層的簡單網路,試下來用當前這組超引數收斂較快,準確率也可以。 3、啟用函式

資料結構(14)-- 堆中的Heapify Replace

Heapify 和 Replace 一、replace 定義:取出最大元素後,放入一個新元素【堆中總數沒有變化】 實現方法:1.可以先 extractMax,再 add,兩次O(log n)的操作;                   2.可以直接將堆頂元素替換以後

資料結構——第六章:集合對映

集合(Set) 什麼是集合? 集合是承載元素的容器; 特點:每個元素只能存在一次 優點:去重 二分搜尋樹的新增操作add:不能盛放重複元素 是非常好的實現“集合”的底層資料結構 /** * 集合的介面 */ public interface Set<

筆記 Data Processing Using Python 1用Python資料第一章)

輸入語句: price=raw_input("String"); 109; price; #值為109,型別為‘str’ 109; price; #值為109,型別為‘str’ 註釋問題:#註釋; \ 續行符;''',(不用加續行符; 縮排問題:增加縮排表示語句的開始;

資料系列十五】機器學習PAI為你自動寫歌詞,媽媽再也不用擔心我的freestyle了提供資料、程式碼)

摘要: 背景 最近網際網路上出現一個熱詞就是“freestyle”,源於一個比拼rap的綜藝節目。在節目中需要大量考驗選手的freestyle能力,freestyle指的是rapper即興的根據一段主題講一串rap。 背景 最近網際網路上出現一個熱詞就是“freest

HAWQ + MADlib 資料探勘之六)——主成分分析與主成分投影

一、主成分分析(Principal Component Analysis,PCA)簡介        在資料探勘中經常會遇到多個變數的問題,而且在多數情況下,多個變數之間常常存在一定的相關性。例如,網站的“瀏覽量”和“訪客數”往往具有較強的相關關係,而電商應用中的“下單數”和“成交數”也具有較強的相關關係。

小邵教你ES6二)——Object.definePropertyProxy代理

Author: 邵威儒Wechat: 166661688Object.definePropert

numpy的ndarray與pandasseriesdataframe之間互

在大資料分析中,比較常用的兩個資料分析包就是numpy和pandas,而pandas正是基於numpy構建的含有更高階資料結構和工具的資料分析包,在金融領域應用更是廣泛。在實際的工程中,經常遇到的問題就是numpy的ndarray資料結構與pandas的series和da

資料科學學習手札81)conda+jupyter資料科學環境搭建

> 本文示例yaml檔案已上傳至我的`Github`倉庫[https://github.com/CNFeffery/DataScienceStudyNotes](https://github.com/CNFeffery/DataScienceStudyNotes) # 1 簡介   我們在使用`Pytho

老司機帶你面試1):快取中介軟體 Redis 基礎知識以及資料持久化

![](https://cdn.geekdigging.com/Interview/mianshi_header_1.jpg) ## 引言 今天週末,我在家坐著掐指一算,馬上又要到一年一度的金九銀十招聘季了,國內今年上半年受到 YQ 衝擊,金三銀四泡湯了,這就直接導致很多今年畢業的同學會和明年畢業的同學一

pandas基礎: SeriesDataFrame的簡單介紹

維數 索引 一維數組 找不到 數組 nbsp 單獨 dex 默認 一、pandas 是什麽 pandas 是基於 NumPy 的一個 Python 數據分析包,主要目的是為了數據分析。它提供了大量高級的數據結構和對數據處理的方法。 pand