1. 程式人生 > >pandas對excel處理過程中的總結

pandas對excel處理過程中的總結

在處理excel資料時需要將一組具有相同標籤值的資料給按標籤抽取出來,同樣的標籤值對應著同一個類別,這項操作讓我對pandas的聚合功能有了更深刻的認識。

所謂聚合groupby,實際上是指將向量或者向量對應的高維度資料對映為標量值的過程,這裡強調求出標量值其實是為了好顯示groupby物件,本身只做聚合的話其實得到的物件並不是dataFrame

而是一個<pandas.core.groupby>物件,這個物件是不能像dataFrame物件一樣直接視覺化的,為了要視覺化,必須找到一個可以計算得到的標量值,

這裡考慮到這次用到的excel本身的特點(順便吐槽一下,這個讓我幫忙做資料分析的專案其實就是個f**k_ing project,完全無腦的去找特徵,實在是把室友逼得不要不要的了,看不下去才幫忙做的)

我有了一個非常大膽的想法,如果資料本身對應的示值只有一列,那麼用mean計算出的值與本身是一樣的,這樣我採用了提取三列,其中兩列用於聚合然後利用求mean搞到了可以寫進excel裡的dataFrame形式的groupby處理後的物件。

其實強調groupby處理完變回dataFrame物件主要是了檔案讀寫,這是pandas中一個非常慘無人道的東西,所以為了讀寫統一,你懂的。

順便提一句關於抽取dataFrame中不相連幾列的方法,在df([['A', 'B', 'C']])的表示式中,注意有兩個中括號,這個才是對列進行提取的關鍵語法,只有一對括號則是對行進行操作,千萬注意。

說到了excel,最近師兄給的excel還要重新修改格式,做運算式解析時一對圓括號簡直不忍直視,區分運算括號與引數括號真的也是一件十分頭大的事情,話說回來,對大量資料進行操作的時候python的速度並不算快,可以泡杯茶好好享受一下生活了。。。

紀念2018-11-20第一次生嚼胡羅卜!