1. 程式人生 > >Python | 機器學習第一彈 (二) 處理和操作數據

Python | 機器學習第一彈 (二) 處理和操作數據

特征 機器 使用 類型 記錄 方法 clas ply 轉變

這一篇,我們來學習如何處理和操作數據:
1.Map

Map方法適用於序列數據,所以在我們的栗子中將用它來轉變數據框的某列,當我們覺得類別的名字太長了,我們想要將它替換,這個時候我們便可以使用Map函數:

技術分享圖片

我們在Class的這一列運行了Map函數對原來的字符串進行了替換。

2.Apply

我們繼續用iris_data的數據,給這個數據新增一列,即花瓣寬度超過平均值的時候,我們判定它為寬花瓣,用1來表示,否則用0來表示:

首先計算得到Petal Width的平均值:

技術分享圖片

接下來我們開始為其進行分類:

技術分享圖片

以上是在列上使用apply,下面,我們看如何在數據框上使用:

技術分享圖片

這裏要註意axis=1是對行進行操作,因為我們是對這個數據框操作,所以我們要加上這個條件才能繼續執行。

3.Applymap

當我們想對數據框整體進行操作時,我們便可以使用這個函數:
技術分享圖片

這行代碼表示,我們在數據框上調用了applymap函數,如果某個值是float類型,那麽就返回該值的對數,因此,我們可以將applymap視為根據一定的條件標準來轉變或者格式化每一個單元。

4.Groupby

基於某些你所選擇的類別對數據進行分組:

技術分享圖片

系統按照類別對數據進行了劃分,並提供了每個特征的均值。

技術分享圖片

用.describe()來獲得全部的統計信息

groupby是難點也是重點,在以後遇到的時候也會著重在博客中記錄一下思路以及做法!

Python | 機器學習第一彈 (二) 處理和操作數據