Pandas機器學習一些操作
阿新 • • 發佈:2019-01-09
讀取csv檔案
import pandas as pd
# 讀取
data = pd.read_csv("./train.csv")
對csv檔案進行操作
# -----------------------------------------查詢------------------------------------------------------
# 條件查詢, 縮小資料集範圍, 加快運算
data = data.query("x > 1.0 & x < 1.25 & y > 2.5 & y < 2.75")
# 聚合 + 統計
place_count = data.groupby('place_id').aggregate(np統計方法)
# 進行篩選, 還原索引
tf = place_count[place_count.row_id > 3].reset_index()
# 查詢欄位
data[data.a>0] # 查詢整張表
.reset_index() # 還原索引
.isin() # 類似mysql的in查詢, 可以增加條件, df[df.E.isin(['a','d'])&df.D.isin([0,])]
data['欄位'] # 獲取一列資料
data[['欄位' , '欄位']] # 獲取多個欄位
# -----------------------------------------轉換------------------------------------------------------
# 把符合條件的欄位轉換成時間戳
time_value = pd.to_datetime(data['time'], unit='s') # time轉為時間戳
# 把時間格式的欄位轉換成字典格式,獲取年,月,日
time_value = pd.DatetimeIndex(time_value)
#time_value.key 可以獲取裡面的屬性, 也可以構建新的欄位
# ----------------------------------------刪除-------------------------------------------------------
# 刪除欄位, 按列選擇
data = data.drop(['time'], axis=1)
# ----------------------------------------修改------------------------------------------------------
x['欄位'].fillna(x['欄位'].mean(), inplace=True) # 填充缺失值, inplace把缺失值替換成平均數