1. 程式人生 > >Pandas機器學習一些操作

Pandas機器學習一些操作

讀取csv檔案

import pandas as pd

# 讀取
data = pd.read_csv("./train.csv")

對csv檔案進行操作

# -----------------------------------------查詢------------------------------------------------------

# 條件查詢, 縮小資料集範圍, 加快運算
data = data.query("x > 1.0 & x < 1.25 & y > 2.5 & y < 2.75")
# 聚合 + 統計
place_count = data.groupby('place_id').aggregate(np統計方法) # 進行篩選, 還原索引 tf = place_count[place_count.row_id > 3].reset_index() # 查詢欄位 data[data.a>0] # 查詢整張表 .reset_index() # 還原索引 .isin() # 類似mysql的in查詢, 可以增加條件, df[df.E.isin(['a','d'])&df.D.isin([0,])] data['欄位'] # 獲取一列資料 data[['欄位'
, '欄位']] # 獲取多個欄位 # -----------------------------------------轉換------------------------------------------------------ # 把符合條件的欄位轉換成時間戳 time_value = pd.to_datetime(data['time'], unit='s') # time轉為時間戳 # 把時間格式的欄位轉換成字典格式,獲取年,月,日 time_value = pd.DatetimeIndex(time_value) #time_value.key 可以獲取裡面的屬性, 也可以構建新的欄位
# ----------------------------------------刪除------------------------------------------------------- # 刪除欄位, 按列選擇 data = data.drop(['time'], axis=1) # ----------------------------------------修改------------------------------------------------------ x['欄位'].fillna(x['欄位'].mean(), inplace=True) # 填充缺失值, inplace把缺失值替換成平均數