資料處理不常用語句3
阿新 • • 發佈:2018-10-31
###########################時間序列################################# data_bs.index = pd.date_range (start='2018-08-01 00:00:00',periods=744,freq='h',normalize=True) ####################################################################### sales_train_v2.isna().sum()#顯示空值 sales_train_v2.select_dtypes(include = ['float'])#選擇屬性為float的資料 #plot顯示 #3D顯示 from mpl_toolkits.mplot3d import Axes3D ******************************************************************************* #資料型別轉換、編碼 pd.get_dummies/factorize前者將標稱型資料變為一組數字的矩陣,後者將標稱型資料變為一列資料 #計算元素出現的次數 list: counts.counter() numpy: np.unique(data, return_counts = True) pandas: data.value_counts() ********************************************************************************* np.argsort() np.product(data.shape))#product表示笛卡爾積,data.shape(2,18),表示2*18 = 36 np.var()#方差 np.cumsum errorbar figure(figsize(6,6)) *********************************************************************************** dataframe.sample(5)#隨機顯示5個樣本(dataframe.head()#前10個樣本) data.fillna(method = 'bfill', axis=0).fillna(0)#缺失值填充,根據後一個值進行填充,不存在就填0 pad/ffill:用前一個非缺失值去填充該缺失值 backfill/bfill:用下一個非缺失值填充該缺失值 ######################################################################################### train.groupby(['Pclass', 'Survived'])['Survived'].count() train[['Pclass', 'Survived']].groupby('Pclass').mean().plot.bar() #isnull(), notnull() agedf_train = agedf[agedf.Age.notnull()] agedf_test = agedf[agedf.Age.isnull()].drop('Age',axis = 1)
處理程序時間tqdm: