1. 程式人生 > >Python處理千萬級資料

Python處理千萬級資料

從別人的論文裡找到要用的資料的原始資料自己做過濾

搗鼓了兩天覺得程式碼太慢開始用pandas做處理

不得不說最大的感觸就是 pandas 以及numpy在一定程度上在還原MATLAB

比如MATLAB中利用邏輯值取數、元素的用法,pandas中有幾乎一樣的方法

test:

同時pandas中有很多很好用的方法,猜測使用了很多雜湊值

但是pandas同numpy一樣,增量新增很慢

也就是pandas適用於 已經確定size的資料的讀取操作非常友好,但是把兩個dataframe合併,是很慢的操作

實際上先做了資料的拷貝再進行的拼接,可想而知是多慢了

而Python裡的list是一個動態陣列,比較適合用於動態增長的情況,比如append,+,extends這樣的方法

總之記住只對dataframe進行讀取就夠啦

最後寫程式碼的時候 對於for迴圈要小心!!!

想清楚這個程式碼是不是在迴圈裡面還是外面!!

把要在迴圈外面的程式碼先寫著!!

比如這次把生成dataframe的兩行程式碼寫了for迴圈裡面

查了好幾遍才發現!! 真的很費時間!!

時間的寶貴使人進步。

加油。